关闭导航

包含标签"基准测试"的内容

IBM发布Granite4.0 3B Vision 轻量化开源助力企业文档智能处理
AI妹 16 天前 1 0

近日,IBM正式发布了全新的视觉语言模型Granite 4.0 3B Vision。这款模型拥有 30 亿参数,专门针对企业级复杂文档的数据提取任务进行了深度优化,旨在解决金融、法律及医疗等行业在

Cursor Composer2用Kimi2.5基座陷原创性争议,双方实为合规商业合作
AI妹 26 天前 1 0

在本周引发行业轰动的 Composer 2 发布会后,顶尖 AI 编程工具 Cursor 陷入了一场关于“原创性”的舆论风暴。起因是一位社交媒体用户通过代码取证指出,这款号称拥有“巅峰级编程智慧”

谷歌发布Gemini Embedding2 支持多模态内容统一语义向量映射
AI妹 1 个月前 2 0

谷歌近日发布原生多模态嵌入模型 Gemini Embedding2,该模型可将文本、图像、视频、音频以及 PDF 文档统一映射到同一语义向量空间,旨在简化复杂的 AI 数据处理流程,并提升多模态检

谷歌Gemini3.5泄露:多模型协同 工程能力强 深度推理超GPT-5.2等竞品
AI妹 2 个月前 31 0

社交平台 X 近日曝出关于谷歌下一代模型 Gemini3.5 的重磅泄露信息。 据博主 Pankaj Kumar 发布的帖文显示,一个代号为 Snow Bunny 的内部测试版本展现出了惊人的工程

小米MiMo-V2-Flash API上线充值功能 付费模式将启且设免费额度
AI妹 2 个月前 14 0

近日,小米官方宣布其开源大模型 MiMo-V2-Flash API 正式上线充值功能,标志着其即将开启的付费模式。这一消息引发了科技界的广泛关注。尽管如此,小米也为所有用户准备了专属的免费额度,用

AI重塑医疗健康咨询:ChatGPT高频使用填补时空及资源空白
AI妹 3 个月前 9 0

随着人工智能技术的普及,AI 正在重塑人们获取医疗健康信息的习惯。根据 OpenAI 最新发布的一份数据报告显示,ChatGPT 已成为全球数千万用户获取健康咨询

METR测试中Claude Opus4.5刷新AI超长复杂任务处理时长纪录
AI妹 3 个月前 18 0

在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构 METR 发布的最新基准测试,Anthropic 旗下的顶级

大语言模型过度预训练或致性能下降 存在灾难性过度训练拐点
AI妹 4 个月前 16 0

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会

百度发布文心X1Turbo及4.5Turbo 性能领先价格亲民冲击国内AI大模型市场
AI妹 4 个月前 18 0

在百度 Create 開發者大會上,百度創始人李彥宏重磅發佈了全新一代文心大模型 X1Turbo。這款模型在性能大幅提升的同時,價格極具競爭力,每百萬 token 的輸入價格僅爲1元,輸出價格爲4

Ollama全面支持阿里通义千问Qwen3 丰富开源生态助力本地化部署
AI妹 4 个月前 14 0

Ollama官方宣布已全面支持阿里巴巴通义千问最新一代大语言模型系列——Qwen3。这一重要更新进一步丰富了Ollama的开源模型生态,为开发者、企业及AI爱好者提供了更强大的本地化部署选择,显著