一家名爲 Nari Labs 的兩人創業公司發佈了 Dia,這是一個擁有16億參數的文本轉語音 (TTS) 模型,旨在直接從文本提示生成自然對話。其聯合創始人 Toby Kim 聲稱,Dia 的性
A two-person startup called Nari Labs has released Dia, a 1.6-billion parameter text-to-speech (TT
在 AI 語音生成領域,競爭正變得愈發激烈。近日,來自韓國的兩名本科生合夥創建了一款名爲 Dia 的 AI 語音模型,聲稱其功能可與谷歌的 NotebookLM 相媲美。儘管這兩位創始人在 AI
AI音声生成分野では、競争が激化しています。最近、韓国の2人の大学生が共同でDiaというAI音声モデルを開発し、GoogleのNotebookLMに匹敵する機能を持つと主張しています。AI分野での
在 AI 语音生成领域,竞争正变得愈发激烈。近日,来自韩国的两名本科生合伙创建了一款名为 Dia 的 AI 语音模型,声称其功能可与谷歌的 NotebookLM 相媲美。尽管这两位创始人在 AI
ByteDance has announced the launch of Efficient Pretraining Length Scaling, leveraging a novel Par
字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme
字节跳动宣布推出全新多模态模型Vidi,专注于视频理解与编辑,首版核心能力为精准的时间检索功能。据AIbase了解,Vidi能够处理视觉、音频和文本输入,支持长达一小时的超长视频分析,在时间检索任
Ostris團隊發佈Flex.2-preview,一款基於8億參數的文本到圖像擴散模型,專爲集成到ComfyUI工作流設計。據AIbase瞭解,該模型在基於線條、姿態和深度的控制生成能力上表現出色
Ostris团队发布Flex.2-preview,一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。据AIbase了解,该模型在基于线条、姿态和深度的控制生成能力上表现出色
emlog1 个月前
发表在:欢迎使用emlog这是系统生成的演示评论