ModelScope - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"ModelScope"的内容

B站开源Index-AniSora动画模型技术突破赋能二次元创作发展

B站开源Index-AniSora动画模型技术突破赋能二次元创作发展

AI妹 5 个月前 14 0

2025年5月19日，嗶哩嗶哩（B站）宣佈開源其最新的動畫視頻生成模型——Index-AniSora，這一創新技術爲二次元風格視頻的生成帶來了革命性的突破。Index-AniSora支持多種二次元

二次元风格视频强化学习技术框架番剧漫画转动画 GitHub

查看详情

通義大模型CoGenAV：音视频同步语音技术革新多任务性能优异

通義大模型CoGenAV：音视频同步语音技术革新多任务性能优异

AI妹 5 个月前 18 0

最近、通義大模型はCoGenAVを発表しました。これは音声と映像の同期というアイデアに基づいて音声認識技術を革新し、雑音干渉による問題を効果的に解決しています。従来の音声認識技術はノイズ環境

ASD 音声映像同期 ModelScope VSR ResNet3D CNN

查看详情

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

AI妹 5 个月前 14 0

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visua

Talkies数据集 AVSE VSR 训练成本节省抗噪能力

查看详情

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

AI妹 5 个月前 17 0

近日，通義大模型發佈CoGenAV，以音畫同步理念創新語音識別技術，有效解決語音識別中噪聲干擾的難題。傳統語音識別在噪聲環境下表現欠佳，CoGenAV則另闢蹊徑，通過學習audio-visua

Whisper 抗噪能力 SDRi指标 LRS2数据集语音同步(ASD)

查看详情

Alibaba开源世界首个链思推理音频生成模型ThinkSound，实现高保真视听同步

Alibaba开源世界首个链思推理音频生成模型ThinkSound，实现高保真视听同步

AI妹 5 个月前 15 0

Recently, the Alibaba Speech AI team announced the open-source release of ThinkSound, the world's

film and television sound effects production game development structured reasoning video-to-audio technology AudioCoT multimodal dataset

查看详情

阿里巴巴通义实验室开源ThinkSound 多模态音频模型赋能音效创作新革命

阿里巴巴通义实验室开源ThinkSound 多模态音频模型赋能音效创作新革命

AI妹 5 个月前 17 0

2025年7月，阿里巴巴通义实验室正式开源其首款音频生成模型ThinkSound，为视频内容创作带来革命性突破。这款多模态AI模型能够基于视频、文本或音频输入，生成高保真的音效与音景，完美适配画面

阿里巴巴通义实验室多模态AI 游戏音效设计 GitHub Hugging Face

查看详情

阿里通义实验室开源ThinkSound 多模态AI音频生成赋能影视游戏等创作领域

阿里通义实验室开源ThinkSound 多模态AI音频生成赋能影视游戏等创作领域

AI妹 5 个月前 17 0

In July 2025, Alibaba's Tongyi Lab officially open-sourced its first audio generation model, Think

video-audio synchronization natural language processing Hugging Face multimodal fusion post-production for films

查看详情

阿里巴巴通义实验室开源ThinkSound 多模态音频生成开启音效新革命

阿里巴巴通义实验室开源ThinkSound 多模态音频生成开启音效新革命

AI妹 5 个月前 15 0

2025年7月，阿里巴巴通義實驗室正式開源其首款音頻生成模型ThinkSound，爲視頻內容創作帶來革命性突破。這款多模態AI模型能夠基於視頻、文本或音頻輸入，生成高保真的音效與音景，完美適配畫面

ModelScope 开源 GitHub 音频生成模型音效生成

查看详情

阿里通义ThinkSound 2025开源 AI音声生成革新行业新方向

阿里通义ThinkSound 2025开源 AI音声生成革新行业新方向

AI妹 5 个月前 14 0

2025年7月、アリババ・トングイラボはその初の音声生成モデル「ThinkSound」を正式にオープンソース化しました。このモデルは動画コンテンツ制作に革命をもたらし、画期的な突破を実現しました。

ModelScope 教育コンテンツ制作 Hugging Face GitHub コンピュータビジョン

查看详情

阿里通义Qwen-Image-i2L：单图生成LoRA，降低AI个性化创作门槛

阿里通义Qwen-Image-i2L：单图生成LoRA，降低AI个性化创作门槛

AI妹 6 个月前 24 0

在AI图像生成领域，一项革命性技术新鲜出炉:Qwen-Image-i2L。这款由阿里通义实验室推出的开源工具，能将任意单张图片瞬间转化为可微调的LoRA（Low-Rank Adaptation）模

DPG 个性化生成扩散模型 FlowMatchEuler调度器阿里通义实验室

查看详情

...

7



资讯姬

文章数量13530

总阅读量230.621k

总评论量0

会员数量2

本站由emlog驱动