语音生成 : https://github.com/FunAudioLLM/CosyVoice
语音识别 : https://github.com/FunAudioLLM/SenseVoice

项目详细介绍:

https://fun-audio-llm.github.io/

在线体验的地址如下:

https://www.modelscope.cn/studios/iic/CosyVoice-300M

https://www.modelscope.cn/studios/iic/SenseVoice

FunAudioLLM整体系统框架介绍

FunAudioLLM 是阿里语音团队最新开源的项目,用于改善人类与大型语言模型的自然语音交互。包含两个核心模型:SenseVoice 负责语音识别和音频处理,CosyVoice 负责语音生成和控制。

SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟 ASR(目前已开源),SenseVoice-Large 支持超过 50 种语言的高精度 ASR。
CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。整体项目的框架如下:

核心模型一: 语音识别模型SenseVoice介绍

SenseVoice 是一个全面的语音基础模型,旨在执行各种语音理解任务,包括自动语音识别(ASR)、语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。

SenseVoice-Small:一个仅编码器的模型,优化了快速语音理解。它在支持5种语言的同时提供高速处理。
SenseVoice-Large:一个编码器-解码器模型,旨在实现更精确的语音理解,支持更广泛的语言范围。它以准确性见长,并支持大量的语言功能。

SenseVoice模型具有的功能特点:

  • 多语言语音识别:SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。
  • 低延迟:特别是 SenseVoice-Small 版本,采用非自回归端到端架构,提供了极低的推理延迟。
  • 高性能:与 Whisper-small(已开源)Whisper-large 相比,SenseVoice-Small 的性能分别快 5 倍15 倍以上。
  • 情感识别:SenseVoice 提供最先进的情感识别能力(例如高兴、悲伤、生气等),能够检测音频中的特定事件,如音乐、掌声和笑声等。
  • 高精准度:SenseVoice-Large(目前还未开源) 支持超过 50 种语言的高精准度自动语音识别(ASR)。

核心模型二: 语音合成模型CosyVoice介绍

CosyVoice 是一个语音生成模型,能够合成自然声音,适用于多种应用。模型支持五种语言:中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型:

CosyVoice-base-300M:擅长准确代表说话者身份,无需微调即可适应不同上下文,能够跨语言克隆声音。
CosyVoice-instruct-300M:能够生成富有情感表现力的语音,允许通过指令文本进行精细调整。
CosyVoice-sft-300M:已针对七位多语言说话者进行了微调,适合立即部署使用。

语音合成模型 CosyVoice 功能特点:

  • 多语言支持:CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
  • 零样本学习:能够无需训练即可适应新说话者(zero-shot in-context learning),能够在不同语言之间复制声音。
  • 情感共鸣:能够创建情感共鸣的声音, CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
  • 高质量语音合成:生成的样本在词错误率(WER)和说话者相似性方面达到人类水平。
  • 语音定制化:能够根据特定说话者生成多语言语音,适应新说话者而无需训练。
  • 语音克隆与风格迁移:支持在不同语言之间进行语音克隆和情感风格迁移。

FunAudioLLM的应用场景

SenseVoice + LLMs + CosyVoice 实现同声翻译

SenseVoice + LLMs + CosyVoice 实现情感聊天

SenseVoice + LLMs + CosyVoice 实现互动解说

LLMs + CosyVoice 实现有声电子书阅读

语音识别-SenseVoice模型: 在线官方体验网址

如果你想要快速体验语音识别SenseVoice模型的效果,你可以访问https://www.modelscope.cn/studios/iic/SenseVoice。在这里你可以体验到SenseVoice模型的语音识别和情感识别,其中界面如下:

语音合成-CosyVoice模型: 在线官方体验网址

如果你想要快速体验语音合成CosyVoice模型的效果,你可以访https://www.modelscope.cn/studios/iic/CosyVoice-300M 在这里你可以体验到CosyVoice模型的三个版本对应的效果,其中界面如下:

实战篇: 语音识别模型SenseVoice模型-手把手实操部署权重推理

环境配置
这块环境配置简单了很多,对python版本要求在3.8以上,如下:

作者:Jeebiz  创建时间:2024-07-09 09:07
最后编辑:Jeebiz  更新时间:2025-05-12 09:20