今日,美团 LongCat 团队正式发布并开源了最新的 AI 模型 ——LongCat-Flash-Thinking-2601。该模型作为 LongCat-Flash-Thinking 系列的升级
1 月 15 日,通义千问App宣布一次性上线超过 400 项全新功能,覆盖外卖订餐、酒店机票预订、淘宝购物、政务办事、财务分析、市场研究乃至一对一AI家教等多元场景——所有能力即刻向全体用户开放
字節跳動豆包大模型團隊宣佈開源 UI-TARS-1.5,這是一款基於視覺 - 語言模型構建的開源多模態智能體,能夠在虛擬世界中高效執行各類任務。該模型在7個典型的 GUI 圖形用戶界面評測基準中取
ByteDance's Doubao large model team announced the open-source release of UI-TARS-1.5, a multi-moda
近日,Nes2Net深度学习模型架构正式开源发布,成为语音反欺骗系统领域的重要突破。据AIbase了解,Nes2Net专为语音防伪检测设计,能够有效识别语音克隆、逻辑访问攻击、假歌声、假语音及部分
近日,清華大學叉院的 ISRLab 與北京星動紀元科技有限公司攜手推出了首個 AIGC(人工智能生成內容)機器人大模型 ——VPP(視頻預測策略)。這一創新成果在2025年國際機器學習大會(ICM
在计算机视觉和图形学中,3D 形状的抽象是一个基础且关键的研究领域。通过将复杂的3D 形状分解为简单的几何单位,研究者能够更好地理解人类视觉感知的机制。 然而,现有的3D 生成方法通常无法满
人工智能领域最近迎来了一项引人关注的新进展。总部位于东京的 Sakana AI 发表了一篇题为《连续思维机器》(Continuous Thought Machines)的论文,提出了一种旨在让机器
In the field of artificial intelligence, vision-language models (VLMs) have made significant
在人工智能领域,视觉语言模型(VLM)近年来取得了显著进展,尤其是在二维视觉理解方面。随着这一领域的不断发展,研究人员们开始将目光投向3D 场景理解。然而,由于高质量空间数据的稀缺和静
emlog1 个月前
发表在:欢迎使用emlog这是系统生成的演示评论