快速开始

我们使用torch.hub它来简化模型加载——无需克隆存储库。执行推理的步骤很简单：

使用 pip 安装：

要求：

Python >= 3.10
火炬 >= 2.0
托尔查音频
利布罗萨
沃科斯
编解码器
安全张量
正则表达式
pip install –upgrade torch torchaudio librosa vocos encodec safetensors regex
加载模型：从 torch hub 加载 MARS5 AR 和 NAR 模型：
import torch, librosa

mars5, config_class = torch.hub.load(‘Camb-ai/mars5-tts’, ‘mars5_english’, trust_repo=True)

The `mars5` contains the AR and NAR model, as well as inference code.

The `config_class` contains tunable inference config settings like temperature.

（可选）从 huggingface 加载模型（确保存储库已克隆）

from inference import Mars5TTS, InferenceConfig as config_class
import torch, librosa

mars5 = Mars5TTS.from_pretrained(“CAMB-AI/MARS5-TTS”)
选取参考文献及其文本（可选）：

Load reference audio between 1-12 seconds.

wav, sr = librosa.load(‘<path to arbitrary 24kHz waveform>.wav’,
sr=mars5.sr, mono=True)
wav = torch.from_numpy(wav)
ref_transcript = ““
注意：参考记录是可选的。如果您希望进行深度克隆，请传递它。

MARS5 支持两种推理：一种是浅层快速推理，不需要参考文献的转录本（我们称之为浅层克隆）；另一种是较慢但通常质量更高的推理，我们称之为深度克隆。要使用深度克隆，您需要快速转录本。有关更多信息，请参阅模型架构。

进行合成：

Pick whether you want a deep or shallow clone. Set to False if you don’t know prompt transcript or want fast inference. Set to True if you know transcript and want highest quality.

deep_clone = True

Below you can tune other inference settings, like top_k, temperature, top_p, etc…

cfg = config_class(deep_clone=deep_clone, rep_penalty_window=100,
top_k=100, temperature=0.7, freq_penalty=3)

ar_codes, output_audio = mars5.tts(“The quick brown rat.”, wav,
ref_transcript,
cfg=cfg)

output_audio is (T,) shape float tensor corresponding to the 24kHz output audio.

就是这样！这些默认设置提供了相当不错的结果，但您可以随意调整推理设置以优化特定用例的输出。InferenceConfig有关所有不同推理设置的信息和文档，请参阅代码或演示笔记本。

获得最佳质量的一些技巧：

确保参考音频清晰且时长在 1 秒至 12 秒之间。
使用深度克隆并提供准确的转录本以供参考。
使用正确的标点符号——通过正确使用标点符号和大写字母可以指导模型，使其变得更好或更坏。

作者：Jeebiz 创建时间：2024-07-02 23:27
最后编辑：Jeebiz 更新时间：2025-11-11 17:29

Mars5-TTS