关闭导航

包含标签"GitHub"的内容

苹果发布FastVLM:高分辨率优化新视觉语言模型 移动端高效运行提速85倍
AI妹 1 个月前 13 0

苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。FastVLM通过创新的FastViTHD视觉

苹果正式发布FastVLM:FastViTHD驱动革新性高分辨率VLM赋能移动高效AI应用体验
AI妹 1 个月前 9 0

アップルがFastVLMを正式に発表しました。これは高解像度画像処理に最適化されたビジュアル言語モデル(VLM)で、iPhoneなどのモバイルデバイス上で効率的な動作と卓越したパフォーマンスを実現

苹果发布FastVLM:高分辨率优化 移动端高效运行的多模态视觉语言模型
AI妹 1 个月前 9 0

蘋果正式發佈FastVLM,一款專爲高分辨率圖像處理優化的視覺語言模型(VLM),以其在iPhone等移動設備上的高效運行能力和卓越性能引發行業熱議。FastVLM通過創新的FastViTHD視覺

NVIDIA Cosmos DiffusionRenderer:图像视频重光源去光源技术的重大升级
AI妹 1 个月前 11 0

NVIDIA 近期推出了 Cosmos DiffusionRenderer,这是一个旨在实现高质量图像和视频重光源及去光源的新型视频扩散框架。此技术是 NVIDIA 原有 DiffusionRen

开源TTS新突破Muyan-TTS:超高速生成 多场景适配 支持定制化
AI妹 1 个月前 14 0

オープンソースの音声合成(TTS)技術で新たな突破が達成されました! 先日公開されたMuyan-TTSは、ポッドキャスト、オーディオブック、長尺ビデオなど、特定のシナリオに特化した設計のオープンソ

开源TTS模型Muyan-TTS发布 适配长语音生成多场景支持说话人定制开源高效
AI妹 1 个月前 12 0

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一

开源TTS新突破:Muyan-TTS零shot快速生成高连贯长音频内容
AI妹 1 个月前 10 0

A new breakthrough has been achieved in open-source text-to-speech (TTS) technology! The recently

开源Muyan-TTS新模型发布 高效长语音生成助力内容创作
AI妹 1 个月前 10 0

開源語音合成迎來新突破!近日發佈的開源 TTS 模型 Muyan-TTS 專爲播客、有聲書、長視頻等場景設計,具備零樣本語音合成、極速生成與高連貫性朗讀能力,是當前最適合批量化長語音生成的模型之一

DiffSMol:高效生成高潜力3D候选药物的开源AI模型获重要突破
AI妹 1 个月前 10 0

On May 12, a research team from The Ohio State University introduced DiffSMol, a generative artifi

字节跳动开源DreamO画像定制框架 多功能驱动AI编辑革新
AI妹 1 个月前 10 0

字節跳動はHugging Faceプラットフォームで、新たな画像カスタマイズフレームワーク「DreamO」を正式にオープンソースとして公開しました。このフレームワークは、キャラクターの服替えや顔の