オープンソースの音声合成(TTS)技術で新たな突破が達成されました! 先日公開されたMuyan-TTSは、ポッドキャスト、オーディオブック、長尺ビデオなど、特定のシナリオに特化した設計のオープンソ
开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一
A new breakthrough has been achieved in open-source text-to-speech (TTS) technology! The recently
開源語音合成迎來新突破!近日發佈的開源 TTS 模型 Muyan-TTS 專爲播客、有聲書、長視頻等場景設計,具備零樣本語音合成、極速生成與高連貫性朗讀能力,是當前最適合批量化長語音生成的模型之一
字節跳動はHugging Faceプラットフォームで、新たな画像カスタマイズフレームワーク「DreamO」を正式にオープンソースとして公開しました。このフレームワークは、キャラクターの服替えや顔の
字節跳動在Hugging Face平臺正式開源了全新圖像定製框架DreamO,這一框架集成了圖像換裝、換臉、造型調整、風格遷移以及多主體組合等多種功能,爲AI圖像編輯領域帶來了全新的技術突破。AI
ByteDance has officially open-sourced the new image customization framework, DreamO, on the Huggin
字节跳动在Hugging Face平台正式开源了全新图像定制框架DreamO,这一框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能,为AI图像编辑领域带来了全新的技术突破。AI
通義千問系列首次開源了一款名爲Qwen-Image的20億參數多模態擴散變換器(MMDiT)圖像生成基礎模型。這一創新成果不僅在複雜文本渲染和精確圖像編輯方面取得了突破性進展,更是在多個公開基準測
通義千問シリーズは、Qwen-Imageという20億パラメータのマルチモーダル・ディフュージョン・トランスフォーマー(MMDiT)画像生成ベースモデルを初めてオープンソース化しました。この革新的な