自动语音识别(ASR) - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"自动语音识别(ASR)"的内容

微软开源VibeVoice语音AI模型家族含ASR/TTS支持长音频及本地部署

微软开源VibeVoice语音AI模型家族含ASR/TTS支持长音频及本地部署

AI妹 2 个月前 5 0

微软近日开源了名为VibeVoice的前沿语音 AI 模型家族，涵盖自动语音识别（ASR）和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性，迅速

VibeVoice-TTS-1.5B VibeVoice-Realtime-0.5B Hugging Face 本地部署 Vibing

查看详情

UltraEval-Audio新版本发布开源助力音频模型评测标准化高效化

UltraEval-Audio新版本发布开源助力音频模型评测标准化高效化

AI妹 5 个月前 29 0

在音频技术飞速发展的今天，如何对音频模型进行有效评测已成为研究者们的重要课题。近日，清华大学 NLP 实验室、OpenBMB 与面壁智能联合推出了 UltraEval-Audio，这是一个专为音频

音频模型评测编解码器（Codec）音频技术 UltraEval-Audio 清华大学NLP实验室

查看详情

Perplexity AI iOS语音助手：多模智能交互、实用核心功能与全面场景应用详解

Perplexity AI iOS语音助手：多模智能交互、实用核心功能与全面场景应用详解

AI妹 5 个月前 19 0

Perplexity AI在其iOS應用中推出全新語音助手功能，進一步增強了AI助手的實用性與交互體驗。據AIbase瞭解，新功能支持設置鬧鐘、查找路線、發送消息、預訂餐廳等多項任務，結合強大的實

On-Screen Context 深度神经网络屏幕与摄像头交互上下文感知引擎工作效率提升

查看详情

Perplexity AI iOS全新语音助手上线：多任务实时交互社区反响热烈

Perplexity AI iOS全新语音助手上线：多任务实时交互社区反响热烈

AI妹 5 个月前 22 0

Perplexity AI在其iOS应用中推出全新语音助手功能，进一步增强了AI助手的实用性与交互体验。据AIbase了解，新功能支持设置闹钟、查找路线、发送消息、预订餐厅等多项任务，结合强大的实

技术架构 iOS语音助手隐私安全开源API 上手指南

查看详情

英伟达Parakeet-TDT-0.6B-V2：秒转60分钟音频，低WER开源赋能各类语音场景应用

英伟达Parakeet-TDT-0.6B-V2：秒转60分钟音频，低WER开源赋能各类语音场景应用

AI妹 5 个月前 17 0

近日，英伟达在 Hugging Face 平台上推出了其最新的自动语音识别（ASR）模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升，还将开源理念与商业应用相结

V100 GPU 自动语音识别(ASR) Hugging Face Granary数据集对话式AI平台

查看详情

LLaMA-Omni2语音语言模型：高质量实时交互性能超越前辈引关注

LLaMA-Omni2语音语言模型：高质量实时交互性能超越前辈引关注

AI妹 5 个月前 15 0

最近 AI 圈可是热闹非凡，今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。这是一系列超厉害的语音语言模型（SpeechLMs），参数规模从0.5B 到14B 不等，专门为实现高质量

原生SpeechLMs LLaMA-Omni2 模块化SpeechLMs HiFi-GAN声码器文本转语音(TTS)

查看详情

NVIDIA Canary-Qwen-2.5B混合模型登顶ASR榜性能优商业开源支持企业应用

NVIDIA Canary-Qwen-2.5B混合模型登顶ASR榜性能优商业开源支持企业应用

AI妹 5 个月前 19 0

NVIDIA剛剛發佈了Canary-Qwen-2.5B，這是一款突破性的自動語音識別（ASR）和語言模型(LLM)混合模型，以創紀錄的5.63%詞錯率(WER)榮登Hugging Face Ope

Hugging Face OpenASR排行榜混合模型开源法规文档处理 NVIDIA

查看详情



资讯姬

文章数量13551

总阅读量241.567k

总评论量0

会员数量2

本站由emlog驱动