阿里巴巴通义实验室近日发布了 MAI-UI,这是一个多模态的基础 GUI 智能代理家族。该系统不仅能够实现人机交互,还能整合 MCP 工具使用、设备与云端协作,以及在线强化学习,从而在通用 GUI
阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,这款模型以超低延迟、自然流畅的语音交互为核心,标志着开源语音AI进入全新阶段。它不仅能实时理解用户语音,还具
据多方信源透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)已于2024年4月30日正式离职,并低调加盟某头部互联网公司,出任新设立的多模态模型部副总经理一职。 尽管该互联网公司具体
據多方信源透露,阿里巴巴通義實驗室應用視覺團隊負責人薄列峯(職級P10)已於2024年4月30日正式離職,並低調加盟某頭部互聯網公司,出任新設立的多模態模型部副總經理一職。 儘管該互聯網公司具體
阿里雲通義實驗室近日宣佈正式開源其自主搜索AI智能體項目 WebAgent,其中旗艦組件 WebShaper 和 WebSailor 在網絡智能體領域引發廣泛關注。作爲一款突破性的AI工具,Web
近日,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战,特别是传统方法在处理视频帧
近日,阿里巴巴通義實驗室與南開大學計算機科學學院聯合發佈了一種創新的視頻大模型壓縮方法 ——LLaVA-Scissor。這一技術的出現旨在應對視頻模型處理中的一系列挑戰,特別是傳統方法在處理視頻幀
In the rapid development of artificial intelligence, how to enhance the retrieval and reasoning ca
2025年7月,阿里巴巴通义实验室正式开源其首款音频生成模型ThinkSound,为视频内容创作带来革命性突破。这款多模态AI模型能够基于视频、文本或音频输入,生成高保真的音效与音景,完美适配画面
2025年7月,阿里巴巴通義實驗室正式開源其首款音頻生成模型ThinkSound,爲視頻內容創作帶來革命性突破。這款多模態AI模型能夠基於視頻、文本或音頻輸入,生成高保真的音效與音景,完美適配畫面
emlog1 个月前
发表在:欢迎使用emlog这是系统生成的演示评论