最近、OpenAIは、医療現場での大規模言語モデル(LLMs)のパフォーマンスと安全性を測定することを目的としたHealthBenchというオープンソース評価フレームワークを発表しました。このフレ
Recently, OpenAI released a new open-source evaluation framework named HealthBench, aimed at measu
OpenAI announced the release of two open-source weight language models—gpt-oss-120b and gpt-oss-20
OpenAIは、医療分野での大規模言語モデルの質問応答能力を評価するための大型データセットを正式に公開しました。このプロジェクトは「HealthBench」と名付けられ、専門家たちはこのオープンソ