快速开始

我们使用torch.hub它来简化模型加载——无需克隆存储库。执行推理的步骤很简单:

使用 pip 安装:

要求:

Python >= 3.10
火炬 >= 2.0
托尔查音频
利布罗萨
沃科斯
编解码器
安全张量
正则表达式
pip install –upgrade torch torchaudio librosa vocos encodec safetensors regex
加载模型:从 torch hub 加载 MARS5 AR 和 NAR 模型:
import torch, librosa

mars5, config_class = torch.hub.load(‘Camb-ai/mars5-tts’, ‘mars5_english’, trust_repo=True)

The mars5 contains the AR and NAR model, as well as inference code.

The config_class contains tunable inference config settings like temperature.

(可选)从 huggingface 加载模型(确保存储库已克隆)

from inference import Mars5TTS, InferenceConfig as config_class
import torch, librosa

mars5 = Mars5TTS.from_pretrained(“CAMB-AI/MARS5-TTS”)
选取参考文献及其文本(可选):

Load reference audio between 1-12 seconds.

wav, sr = librosa.load(‘<path to arbitrary 24kHz waveform>.wav’,
sr=mars5.sr, mono=True)
wav = torch.from_numpy(wav)
ref_transcript = “
注意:参考记录是可选的。如果您希望进行深度克隆,请传递它。

MARS5 支持两种推理:一种是浅层快速推理,不需要参考文献的转录本(我们称之为浅层克隆);另一种是较慢但通常质量更高的推理,我们称之为深度克隆。要使用深度克隆,您需要快速转录本。有关更多信息,请参阅模型架构。

进行合成:

Pick whether you want a deep or shallow clone. Set to False if you don’t know prompt transcript or want fast inference. Set to True if you know transcript and want highest quality.

deep_clone = True

Below you can tune other inference settings, like top_k, temperature, top_p, etc…

cfg = config_class(deep_clone=deep_clone, rep_penalty_window=100,
top_k=100, temperature=0.7, freq_penalty=3)

ar_codes, output_audio = mars5.tts(“The quick brown rat.”, wav,
ref_transcript,
cfg=cfg)

output_audio is (T,) shape float tensor corresponding to the 24kHz output audio.

就是这样!这些默认设置提供了相当不错的结果,但您可以随意调整推理设置以优化特定用例的输出。InferenceConfig有关所有不同推理设置的信息和文档,请参阅代码或演示笔记本。

获得最佳质量的一些技巧:

确保参考音频清晰且时长在 1 秒至 12 秒之间。
使用深度克隆并提供准确的转录本以供参考。
使用正确的标点符号——通过正确使用标点符号和大写字母可以指导模型,使其变得更好或更坏。

作者:Jeebiz  创建时间:2024-07-02 23:27
最后编辑:Jeebiz  更新时间:2025-05-12 09:20