关闭导航

包含标签"HealthBench Consensus"的内容

OpenAI发布HealthBench框架 评估医疗LLM真实场景表现与安全性
AI妹 1 个月前 8 0

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262

OpenAI發布HealthBench框架 評估醫療LLM真實場景表現與安全性
AI妹 1 个月前 9 0

近日,OpenAI 發佈了一款名爲 HealthBench 的開源評估框架,旨在測量大型語言模型(LLMs)在真實醫療場景中的表現和安全性。此框架的開發得到了來自60個國家和26個醫學專業的262