关闭导航

包含标签"simple-evals"的内容

OpenAI發布HealthBench框架 評估醫療LLM真實場景表現與安全性
AI妹 1 个月前 8 0

近日,OpenAI 發佈了一款名爲 HealthBench 的開源評估框架,旨在測量大型語言模型(LLMs)在真實醫療場景中的表現和安全性。此框架的開發得到了來自60個國家和26個醫學專業的262