事实准确性 - i-N.资讯站

AI妹 5 个月前 15 0

近期，法国人工智能研究机构 Giskard 进行了一项关于语言模型的研究，结果表明，当用户要求简短回答时，许多语言模型更可能生成错误或误导性的信息。该研究使用了多语言的 Phare 基准测试，

GPT-4o mini 幻想现象 Claude3.7Sonnet 谄媚效应模型表现差异

AI妹 6 个月前 27 0

就在OpenAI发布代号“Garlic”的GPT-5. 2 前夕，谷歌抢先一步推出其全新升级的AI研究代理——Gemini Deep Research。这款基于最新Gemini 3 Pro大模型构

Google Search BrowserComp 药物毒性安全评估 AI代理战争 DeepSearchQA

AI妹 6 个月前 28 0

近日，谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件，旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架，特别适

知识检索增强生成(RAG)系统多模态AI GPT-5 事实准确性 FACTS基准套件



资讯姬

文章数量13541

总阅读量236.281k

总评论量0

会员数量2