FunAudioLLM - Powered by MinDoc

阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

语音生成 : https://github.com/FunAudioLLM/CosyVoice
语音识别 : https://github.com/FunAudioLLM/SenseVoice

项目详细介绍：

https://fun-audio-llm.github.io/

在线体验的地址如下：

https://www.modelscope.cn/studios/iic/CosyVoice-300M

https://www.modelscope.cn/studios/iic/SenseVoice

FunAudioLLM整体系统框架介绍

FunAudioLLM 是阿里语音团队最新开源的项目，用于改善人类与大型语言模型的自然语音交互。包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟 ASR(目前已开源)，SenseVoice-Large 支持超过 50 种语言的高精度 ASR。
CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。整体项目的框架如下:

核心模型一: 语音识别模型SenseVoice介绍

SenseVoice 是一个全面的语音基础模型，旨在执行各种语音理解任务，包括自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。

SenseVoice-Small：一个仅编码器的模型，优化了快速语音理解。它在支持5种语言的同时提供高速处理。
SenseVoice-Large：一个编码器-解码器模型，旨在实现更精确的语音理解，支持更广泛的语言范围。它以准确性见长，并支持大量的语言功能。

SenseVoice模型具有的功能特点：

多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。
低延迟：特别是 SenseVoice-Small 版本，采用非自回归端到端架构，提供了极低的推理延迟。
高性能：与 Whisper-small(已开源) 和 Whisper-large 相比，SenseVoice-Small 的性能分别快 5 倍和 15 倍以上。
情感识别：SenseVoice 提供最先进的情感识别能力（例如高兴、悲伤、生气等），能够检测音频中的特定事件，如音乐、掌声和笑声等。
高精准度：SenseVoice-Large(目前还未开源) 支持超过 50 种语言的高精准度自动语音识别（ASR）。

核心模型二: 语音合成模型CosyVoice介绍

CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。模型支持五种语言：中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型：

CosyVoice-base-300M：擅长准确代表说话者身份，无需微调即可适应不同上下文，能够跨语言克隆声音。
CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。
CosyVoice-sft-300M：已针对七位多语言说话者进行了微调，适合立即部署使用。

语音合成模型 CosyVoice 功能特点：

多语言支持：CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习：能够无需训练即可适应新说话者（zero-shot in-context learning），能够在不同语言之间复制声音。
情感共鸣：能够创建情感共鸣的声音， CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成：生成的样本在词错误率（WER）和说话者相似性方面达到人类水平。
语音定制化：能够根据特定说话者生成多语言语音，适应新说话者而无需训练。
语音克隆与风格迁移：支持在不同语言之间进行语音克隆和情感风格迁移。

FunAudioLLM的应用场景

SenseVoice + LLMs + CosyVoice 实现同声翻译

SenseVoice + LLMs + CosyVoice 实现情感聊天

SenseVoice + LLMs + CosyVoice 实现互动解说

LLMs + CosyVoice 实现有声电子书阅读

语音识别-SenseVoice模型: 在线官方体验网址

如果你想要快速体验语音识别SenseVoice模型的效果，你可以访问https://www.modelscope.cn/studios/iic/SenseVoice。在这里你可以体验到SenseVoice模型的语音识别和情感识别,其中界面如下:

语音合成-CosyVoice模型: 在线官方体验网址

如果你想要快速体验语音合成CosyVoice模型的效果，你可以访https://www.modelscope.cn/studios/iic/CosyVoice-300M 在这里你可以体验到CosyVoice模型的三个版本对应的效果,其中界面如下:

实战篇: 语音识别模型SenseVoice模型-手把手实操部署权重推理

环境配置
这块环境配置简单了很多，对python版本要求在3.8以上，如下:

作者：Ddd4j 创建时间：2024-07-09 09:07
最后编辑：Ddd4j 更新时间：2026-02-27 09:37

上一篇： SenseVoice
下一篇： StarWhisper