一、OpenVoice 声音克隆原理

OpenVoice 是一种多功能即时语音克隆方法,只需要参考说话者的一个简短音频片段即可复制其声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。 OpenVoice还可以针对海量说话人训练集中未包含的语言实现零样本跨语言语音克隆。

特征

  • 准确的音色克隆。 OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。
  • 灵活的语音风格控制。 OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。
  • 零样本跨语言语音克隆。生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。

项目地址:

如何使用

在 MyShell 中使用

对于大多数用户来说,最方便的方法是直接使用 MyShell 中免费的TTS和即时语音克隆服务。

语音合成

转到 https://app.myshell.ai/explore 并按照以下说明操作:

语音克隆

转到 https://app.myshell.ai/explore 并按照以下说明操作:

最小演示

对于想要快速试用 OpenVoice 并且对质量或稳定性要求不高的用户,请点击以下任意链接:

Linux安装

本部分仅适用于熟悉 Linux、Python 和 PyTorch 的开发人员和研究人员。克隆此存储库并运行

conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

从这里下载检查点并将其解压到checkpoints文件夹中

  • 灵活的音色控制。 请参阅demo_part1.ipynb OpenVoice 如何对克隆语音进行灵活风格控制的示例用法。

  • 跨语言语音克隆。 请参阅demo_part2.ipynb MSML 训练集中看到或未看到的语言的示例。

  • 录音室演示。。我们在这里提供了一个极简的本地渐变演示。如果用户在使用 gradio 演示时遇到问题demo_part1.ipynb,我们强烈建议他们查看demo_part2.ipynb和QnA 。使用 启动本地渐变演示python -m openvoice_app –share。

  • 高级用法。 基本扬声器模型可以替换为用户喜欢的任何模型(任何语言和风格)。请使用se_extractor.get_se演示中演示的函数来提取新基础扬声器的音色嵌入。

  • 生成自然语音的技巧。 有许多单说话人或多说话人 TTS 方法可以生成自然语音,并且很容易获得。只需将基本扬声器模型替换为您喜欢的模型,您就可以将语音自然度提升到您想要的水平。

作者:Jeebiz  创建时间:2024-01-12 09:59
最后编辑:Jeebiz  更新时间:2025-05-12 09:20