关闭导航

包含标签"视觉理解"的内容

开源DroidRun:LLM驱动Android手机自然语言自动化操作
AI妹 5 个月前 18 0

近日,一个名为DroidRun的开源项目引发了广泛关注。该项目通过大型语言模型(LLM)实现自然语言指令控制Android手机,为用户提供了前所未有的自动化体验。从社交媒体管理到日常任务自动化,D

火山引擎谭待发布豆包1.5及文生图3.0 助力企业数字化转型
AI妹 5 个月前 18 0

在近日举行的火山引擎FORCE LINK AI创新巡展上,火山引擎总裁谭待正式公布了豆包1.5深度思考模型,标志着这一创新技术将正式面向企业提供服务。豆包1.5不仅在基础功能上进行了升级,还引入了

火山引擎新豆包1.5深度思考模型上线边缘大模型网关 提供500万tokens免费
AI妹 5 个月前 20 0

4月25日,字节跳动旗下的火山引擎宣布,其最新发布的豆包1.5·深度思考模型已全面上线边缘大模型网关,并为用户提供高达500万tokens的免费使用额度,这一举措在AI领域引起了广泛关注。 豆包

亚马逊发布Nova Premier AI模型 支持多模态处理上下文长度达百万标记
AI妹 5 个月前 17 0

近日,亞馬遜發佈了其 Nova 系列中最強大的 AI 模型 ——Nova Premier。該模型能夠處理文本、圖像和視頻(但不支持音頻),並已在亞馬遜的 AI 模型開發平臺 Bedrock 上可用

亚马逊推出最强Nova Premier AI模型 支持多模态多任务处理并定位为教师
AI妹 5 个月前 16 0

近日,亚马逊发布了其 Nova 系列中最强大的 AI 模型 ——Nova Premier。该模型能够处理文本、图像和视频(但不支持音频),并已在亚马逊的 AI 模型开发平台 Bedrock 上可用

知名AI视频生成公司Luma与Runway拓展至机器人、自动驾驶及游戏领域
AI妹 5 个月前 15 0

 知名人工智能视频生成初创公司 Luma 和 Runway 不再仅仅将电影工作室作为其核心市场。据 The Information 报道,这两家公司正积极寻求新的收入增长点,并已将目光投

字节跳动联合港大、华科推出UniTok视觉分词器 赋能多模态与视觉任务
AI妹 5 个月前 14 0

近日,字节跳动联合香港大学和华中科技大学共同推出了全新的视觉分词器 UniTok。这款工具不仅能在视觉生成和理解任务中发挥作用,还在技术上进行了重要创新,解决了传统分词器在细节捕捉与语义理解之间的

阿里云推出无影AgentBay 为AI智能体开发运行提供安全高效云端方案
AI妹 5 个月前 15 0

在剛剛結束的上海世界人工智能大會上,阿里雲推出了一款名爲 “無影 AgentBay” 的雲端計算平臺,專爲 AI 智能體的開發與運行而設計。這款平臺旨在提升 AI Agents 的工作效率,助力開

阿里云无影AgentBay:集成核心能力的AI智能体高效安全云端平台
AI妹 5 个月前 17 0

在刚刚结束的上海世界人工智能大会上,阿里云推出了一款名为 “无影 AgentBay” 的云端计算平台,专为 AI 智能体的开发与运行而设计。这款平台旨在提升 AI Agents 的工作效率,助力开

字节跳动联合港大华科推出UniTok视觉分词器 多码本量化赋能视觉任务
AI妹 5 个月前 15 0

近日,字節跳動聯合香港大學和華中科技大學共同推出了全新的視覺分詞器 UniTok。這款工具不僅能在視覺生成和理解任務中發揮作用,還在技術上進行了重要創新,解決了傳統分詞器在細節捕捉與語義理解之間的