Whisper - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"Whisper"的内容

LLaMA-Omni2语音模型：高质量实时交互与多模块融合突破

LLaMA-Omni2语音模型：高质量实时交互与多模块融合突破

AI妹 5 个月前 14 0

最近 AI 圈可是熱鬧非凡，今天咱們就來聊聊其中的 “狠角色”——LLaMA-Omni2。這是一系列超厲害的語音語言模型（SpeechLMs），參數規模從0.5B 到14B 不等，專門爲實現高質量

Whisper CosyVoice2 口語問答 GLM-4-Voice HiFi-GAN声碼器

查看详情

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

AI妹 5 个月前 14 0

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visua

SOTA记录 ReLU激活函数 LRS2数据集 ModelScope 开源平台

查看详情

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

AI妹 5 个月前 17 0

近日，通義大模型發佈CoGenAV，以音畫同步理念創新語音識別技術，有效解決語音識別中噪聲干擾的難題。傳統語音識別在噪聲環境下表現欠佳，CoGenAV則另闢蹊徑，通過學習audio-visua

跨模态融合轻量级适配模块 GitHub 视觉语音识别(VSR) Talkies数据集

查看详情

法国Mistral发布开源音频模型Voxtral 打破垄断支持长音频转录多语言经济方案

法国Mistral发布开源音频模型Voxtral 打破垄断支持长音频转录多语言经济方案

AI妹 5 个月前 15 0

隨着人工智能技術的飛速發展，語音正迅速成爲我們與機器溝通的主要方式。法國初創企業 Mistral 近日正式發佈了其首個開源音頻模型 ——Voxtral，旨在打破大型企業封閉系統的壟斷，爲開發者提供

语音转录 Voxtral Mini Hugging Face 法国初创企业 Magistral

查看详情

vLLM发布全模态推理框架vLLM-Omni 解耦架构提效开源

vLLM发布全模态推理框架vLLM-Omni 解耦架构提效开源

AI妹 6 个月前 27 0

vLLM团队发布首个“全模态”推理框架vLLM-Omni，将文本、图像、音频、视频的统一生成从概念验证变成可落地代码。新框架已上线GitHub与ReadTheDocs，开发者可立即pip安装并调用

资源弹性伸缩视频DiT ReadTheDocs ViT Kubernetes CRD

查看详情



资讯姬

文章数量13533

总阅读量232.256k

总评论量0

会员数量2

本站由emlog驱动