登录之后可以开启更多功能哦
Google日前正式发布全新开源大模型Gemma412B,标志着端侧全模态AI迎来突破性进展。该模型颠覆了传统多模态模型依赖视觉和音频外部编码器的复杂链路,创新性地采用“Unified”无编码器架
字节跳动宣布推出全新多模态模型Vidi,专注于视频理解与编辑,首版核心能力为精准的时间检索功能。据AIbase了解,Vidi能够处理视觉、音频和文本输入,支持长达一小时的超长视频分析,在时间检索任