阿里通義實驗室近日發佈了一款名爲 “OmniTalker” 的新型數字人視頻生成大模型。這一創新模型的核心在於其能夠通過上傳一段參考視頻,實現對視頻中人物的表情、聲音和說話風格的精準模仿。相較於傳
人工智能視頻生成領域迎來新的里程碑。AIbase從社交媒體獲悉,字節跳動近期發佈了其全新視頻生成模型Seaweed-7B的論文與演示,展示了一系列突破性功能,包括音視頻同步生成、長鏡頭敘事和實時高
近日,AI视频研究公司Tavus正式发布了其最新零样本唇形同步模型Hummingbird-0,被誉为当前最先进的唇形同步技术(State-of-the-Art, SOTA)。该模型已在Tavus平
Qwen3是什麼? 阿里Qwen3是通義千問系列的最新一代開源大語言模型(LLM),於2025年4月29日正式發佈。作爲全球首個支持“混合推理”的模型,Qwen3包含8款不同規模的模型,涵蓋稠密
近日,一款名为KeySync的创新唇形同步工具正式亮相,迅速引发了视频内容创作领域的广泛关注。这款工具以其独特的技术优势,成功解决了长期困扰AI唇形同步技术的两大难题——表情泄漏和嘴部遮挡问题,为
NVIDIA在台北COMPUTEX2025大会上正式发布全新GeForce GPU系列,引发全球科技圈热议。NVIDIA首席执行官黄仁勋在主题演讲中表示:“你在这里看到的都不是艺术,只是恰好很美而
近年來,文本轉語音(TTS)技術在人工智能領域的飛速發展令人矚目。近日,AIbase獲悉一款名爲IndexTTS2的文本轉語音大模型即將發佈,其效果據稱可達到“影視級”水準,引發業界廣泛關注。以下
近年、テキストから音声への変換(TTS)技術は人工知能分野で飛躍的な発展を遂げており注目されています。最近、AIbaseは「IndexTTS2」という新しい大規模なテキストから音声への変換モデルが
近年来,文本转语音(TTS)技术在人工智能领域的飞速发展令人瞩目。近日,AIbase获悉一款名为IndexTTS2的文本转语音大模型即将发布,其效果据称可达到“影视级”水准,引发业界广泛关注。以下
人工智能在數字人領域的應用持續升溫,阿里巴巴聯合北京郵電大學近日推出了一項令人矚目的新項目——FantasyPortrait。這一項目通過創新的表情增強擴散變換器(DiT),實現了單人及多人場景下
emlog1 个月前
发表在:欢迎使用emlog这是系统生成的演示评论