
近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。
CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。
仅需要3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。
而且CosyVoice支持以富文本或自然语言的形式,对生成语音的情感、韵律进行细粒度的控制,生音频在情感表现力上得到明显提升。
研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力。
CosyVoice很好地建模了合成文本中的语义信息,达到了与人类发音人相当的水平。此外,通过对合成音频进行重打分,能够进一步降低识别的错误率,甚至在内容一致性和说话人相似度上超越人类。
项目地址:https://github.com/FunAudioLLM/CosyVoice
在线体验:https://www.modelscope.cn/studios/iic/SenseVoice
一键包下载:CosyVoice – 阿里最新开源语音克隆、文本转语音项目 支持情感控制及粤语 本地一键整合包下载
之前在线体验过,效果和之前爆火的ChatTTS有一比,因为官方原版只支持linux系统,所以一键包一直没做。今日国内大佬v3ucn基于原版改良的版本,支持win系统了。不仅支持各种情感生成,还支持3秒钟语音样本极速克隆,测试几轮,效果还是非常榜的。
应用场景
陪伴场景:利用复刻的家人声音提供个性化陪伴,用于智能助手和车载导航语音,以及家庭娱乐项目,如为家人朗读绘本、控制家用电器或提供教育辅导。
教育场景:使用复刻老师的声音,加强师生互动,丰富教学视频和课件的内容,打造更亲切、更生动的学习体验。
音视频产业:通过复刻主播的声音,方便后期补录、配音等应用场景,提高音视频的制作效率。
智能客服:借助复刻的客户经理声音,提供语音服务,包括但不限于客户回访和市场营销电话,以赋予服务更加个性化、人性化的特点。
产品优势
低样本音频要求:仅需短短10~20秒的录音便能完成声音复刻,显著降低了录制成本,提升了效率。
高度拟真:利用阿里通义语音实验室自研的CosyVoice生成式神经网络语音大模型算法,结合前沿的零样本学习技术,能够在语调、韵律以及情感表达上高度还原真人声音,很难与真实录音相辨。
即时合成:秒级还原真实音色,提供高效、实时的声音复刻服务。
FunAudioLLM是什么
FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能
- SenseVoice模型:
- 专注于多语言的高精度语音识别。
- 支持超过50种语言,特别是在中文和粤语上识别效果优于现有模型。
- 具备情感识别功能,能够辨识多种人机交互事件。
- 提供轻量级和大型两个版本,适应不同应用场景。
- CosyVoice模型:
- 专注于自然语音生成,支持多语言、音色和情感控制。
- 能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节。
- 支持跨语种语音生成和细粒度的情感控制。

FunAudioLLM的项目地址
- 项目官网:https://fun-audio-llm.github.io/
- CosyVoice 在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M
- SenseVoice 在线体验:https://www.modelscope.cn/studios/iic/SenseVoice
- GitHub仓库:https://github.com/FunAudioLLM
- arXiv技术论文:https://arxiv.org/abs/2407.04051
FunAudioLLM的应用场景

- 开发者和研究人员:使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。
- 企业用户:在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM,提高效率和用户体验。
- 内容创作者:使用FunAudioLLM生成有声读物或播客,丰富内容形式,吸引更多听众。
- 教育领域:用于语言学习、听力训练等教育应用,提高学习效率和兴趣。
- 残障人士:帮助视障人士通过语音交互获取信息,提升生活便利性。
数据统计
数据评估
关于Cosy Voice特别声明
本站哆咪虾提供的Cosy Voice都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由哆咪虾实际控制,在2024-09-05 上午10:06收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,哆咪虾不承担任何责任。
相关导航

魔音工坊是一款可以在线将文字转成语音的智能配音产品。提供不同性别、不同口音的真人声音,在你输入文字后直接配音。你可快速对短视频等需要配音的内容进行配音。是一款功能强大AI语音合成神器。

Azure AI
一种 AI 语音功能,可将文本转换为逼真的语音。生成自然发音的应用和服务。通过自定义真实 AI 语音生成器让你的品牌独具特色,并使用具有不同说话风格和情感语调的语音来搭配你的用例(从文本阅读器和讲述者到客户支持聊天机器人)。

Filme
AI 文字转语音生成器和语音克隆

Rask.ai
Rask.ai人工智能配音工具提供了翻译和配音您的视频的机会。

TTSReader
立即以自然动听的声音大声读出任何文本

腾讯智影
声咖是由搜狗公司开发的AI音视频创作平台,基于自研的语音合成技术,提供一键文字转语音、音频变声、音频工具箱等功能,满足新闻播报、视频配音、有声小说、语音助手等音频制作需...

逗哥配音
逗哥配音是一款500w+达人热推的的AI配音软件,独有的AI智能配音技术,更专业,更完美贴近真人配音。内置丰富的短视频创作工具,文案提取、人声分离等短视频必备功能,逗哥配音是你短视频创作不二的选择!

Blogcast
BlogcastTM是一个文本转语音的工具,允许用户创建播客、视频、电子学习课程的音频和音频书籍,而无需录制。它由人工智能驱动的文本转语音技术提供支持,并提供多种声音和语言可供...
暂无评论...