Cosy Voice

8个月前更新 931 0 0

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目，包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言，特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成，能够控制音色和情感，支持中英日粤韩五种语言。

所在地：

美国

语言：

收录时间：

2024-09-05

打开网站手机查看

大模型:语音文字转语音语音识别 # AI语音 # AI音频 # CosyVoice # 语音合成 # 语音生成

Cosy Voice

打开网站

近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。

CosyVoice专注自然语音生成，支持多语言、音色和情感控制，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。

仅需要3~10s的原始音频，CosyVoice即可生成模拟音色，甚至包括韵律、情感等细节，包括跨语种语音生成。

而且CosyVoice支持以富文本或自然语言的形式，对生成语音的情感、韵律进行细粒度的控制，生音频在情感表现力上得到明显提升。

研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct，可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高，具备更强的情感控制能力。

CosyVoice很好地建模了合成文本中的语义信息，达到了与人类发音人相当的水平。此外，通过对合成音频进行重打分，能够进一步降低识别的错误率，甚至在内容一致性和说话人相似度上超越人类。

项目地址：https://github.com/FunAudioLLM/CosyVoice

在线体验：https://www.modelscope.cn/studios/iic/SenseVoice

一键包下载：CosyVoice – 阿里最新开源语音克隆、文本转语音项目支持情感控制及粤语本地一键整合包下载

之前在线体验过，效果和之前爆火的ChatTTS有一比，因为官方原版只支持linux系统，所以一键包一直没做。今日国内大佬v3ucn基于原版改良的版本，支持win系统了。不仅支持各种情感生成，还支持3秒钟语音样本极速克隆，测试几轮，效果还是非常榜的。

应用场景

陪伴场景：利用复刻的家人声音提供个性化陪伴，用于智能助手和车载导航语音，以及家庭娱乐项目，如为家人朗读绘本、控制家用电器或提供教育辅导。

教育场景：使用复刻老师的声音，加强师生互动，丰富教学视频和课件的内容，打造更亲切、更生动的学习体验。

音视频产业：通过复刻主播的声音，方便后期补录、配音等应用场景，提高音视频的制作效率。

智能客服：借助复刻的客户经理声音，提供语音服务，包括但不限于客户回访和市场营销电话，以赋予服务更加个性化、人性化的特点。

产品优势

低样本音频要求：仅需短短10~20秒的录音便能完成声音复刻，显著降低了录制成本，提升了效率。

高度拟真：利用阿里通义语音实验室自研的CosyVoice生成式神经网络语音大模型算法，结合前沿的零样本学习技术，能够在语调、韵律以及情感表达上高度还原真人声音，很难与真实录音相辨。

即时合成：秒级还原真实音色，提供高效、实时的声音复刻服务。

FunAudioLLM是什么

FunAudioLLM的主要功能

SenseVoice模型：
- 专注于多语言的高精度语音识别。
- 支持超过50种语言，特别是在中文和粤语上识别效果优于现有模型。
- 具备情感识别功能，能够辨识多种人机交互事件。
- 提供轻量级和大型两个版本，适应不同应用场景。
CosyVoice模型：
- 专注于自然语音生成，支持多语言、音色和情感控制。
- 能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节。
- 支持跨语种语音生成和细粒度的情感控制。

FunAudioLLM的项目地址

项目官网：https://fun-audio-llm.github.io/
CosyVoice 在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M
SenseVoice 在线体验：https://www.modelscope.cn/studios/iic/SenseVoice
GitHub仓库：https://github.com/FunAudioLLM
arXiv技术论文：https://arxiv.org/abs/2407.04051

FunAudioLLM的应用场景

开发者和研究人员：使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。
企业用户：在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM，提高效率和用户体验。
内容创作者：使用FunAudioLLM生成有声读物或播客，丰富内容形式，吸引更多听众。
教育领域：用于语言学习、听力训练等教育应用，提高学习效率和兴趣。
残障人士：帮助视障人士通过语音交互获取信息，提升生活便利性。

# AI工具 # AI项目和框架

数据统计

数据评估

Cosy Voice浏览人数已经达到931，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Cosy Voice的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Cosy Voice的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站哆咪虾提供的Cosy Voice都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由哆咪虾实际控制，在2024-09-05 上午10:06收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，哆咪虾不承担任何责任。

哆咪虾致力于优质、实用的网络站点资源收集与分享！本文地址https://www.duomixia.com/sites/3410.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Cosy Voice

FunAudioLLM是什么

FunAudioLLM的主要功能

FunAudioLLM的项目地址

FunAudioLLM的应用场景

数据统计

数据评估

相关导航

Poly.ai

Azure AI

逗哥配音

FakeYou

大饼

Lovo

标贝悦读

音子 AI

暂无评论

热门网址

查询排行榜

即创

扣子

嘟买买

触手

智能网

头条号

CogVideo

飞书

度加

SpiderSupply

蹦窜网

字体搬运工

加入收藏夹

设为首页

友情推荐

Cosy Voice

FunAudioLLM是什么

FunAudioLLM的主要功能

FunAudioLLM的项目地址

FunAudioLLM的应用场景

数据统计

数据评估

相关导航

Poly.ai

Azure AI

逗哥配音

FakeYou

大饼

Lovo

标贝悦读

音子 AI

暂无评论

热门网址

查询排行榜

即创

扣子

嘟买买

触手

智能网

头条号

CogVideo

飞书

度加

SpiderSupply

蹦窜网

字体搬运工

标签云

加入收藏夹

设为首页

友情推荐