OpenAI 文本转语音(TTS)
音频 API 提供了一个基于 OpenAI 文本转语音(TTS)模型的语音端点,使用户能够:
- 讲述一篇书面博客文章。
- 生成多语言的口语音频。
- 使用流式传输提供实时音频输出。
前提条件(Prerequisites)
- 你需要使用 OpenAI 创建一个 API 来访问 ChatGPT 模型。
- 在 OpenAI 注册页面创建一个账户,并在 API Keys 页面生成令牌。
- Spring AI 项目定义了一个名为 spring.ai.openai.api-key 的配置属性,你应该将其设置为从 openai.com 获取的 API Key 的值。
可以在 application.properties 文件中设置这个配置属性:
spring.ai.openai.api-key=<your-openai-api-key>
为了提高处理 API 密钥等敏感信息时的安全性,可以使用 Spring 表达式语言 (SpEL) 来引用自定义环境变量:
# In application.yml
spring:
ai:
openai:
api-key: ${OPENAI_API_KEY}
# In your environment or .env file
export OPENAI_API_KEY=<your-openai-api-key>
您还可以在 application 代码中以编程方式设置这个配置属性:
// Retrieve API key from a secure source or environment variable
String apiKey = System.getenv("OPENAI_API_KEY");
添加存储库和 BOM
Spring AI 工件发布在 Spring Milestone
和 Snapshot
存储库中。请参阅存储库部分将这些存储库添加到您的构建系统中。
为了帮助进行依赖管理,Spring AI 提供了 BOM(物料清单),以确保在整个项目中使用一致的 Spring AI 版本。请参阅依赖管理部分将 Spring AI BOM 添加到您的构建系统。
自动配置(Auto-configuration)
Spring AI 为 OpenAI 嵌入模型提供了 Spring Boot 自动配置。要启用它,请将以下依赖项添加到项目的 Maven pom.xml
文件中:
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>
或者,在你的 Gradle 构建文件 build.gradle
中添加:
dependencies {
implementation 'org.springframework.ai:spring-ai-starter-model-openai'
}
语音属性(Speech Properties)
Retry 属性(Retry Properties)
前缀 spring.ai.retry
用作属性前缀,允许您为 OpenAI 模型配置 retry 机制。
属性 | 描述 | 默认值 |
---|---|---|
spring.ai.retry.max-attempts |
最大重试次数。 | 10 |
spring.ai.retry.backoff.initial-interval |
指数退避策略的初始睡眠持续时间。 | 2 sec. |
spring.ai.retry.backoff.multiplier |
退避间隔乘数。 | 5 |
spring.ai.retry.backoff.max-interval |
最大退避持续时间。 | 3 min. |
spring.ai.retry.on-client-errors |
如果为false,抛出NonTransientAiException,并且不会对4xx 客户端错误码进行重试。 |
false |
spring.ai.retry.exclude-on-http-codes |
不应触发重试的HTTP状态码列表(例如抛出NonTransientAiException)。 | empty |
spring.ai.retry.on-http-codes |
应触发重试的HTTP状态码列表(例如抛出TransientAiException)。 | empty |
连接属性(Connection Properties)
前缀是 spring.ai.openai
的属性,用于配置 OpenAI 的链接。
属性 | 描述 | 默认值 |
---|---|---|
spring.ai.openai.base-url | 连接的URL地址 | https://api.openai.com |
spring.ai.openai.api-key | API密钥 | - |
spring.ai.openai.organization-id | (可选)可指定用于API请求的组织ID | - |
spring.ai.openai.project-id | (可选)可指定用于API请求的项目ID | - |
配置属性(Configuration Properties)
前缀是 spring.ai.openai.audio.speech
作为属性前缀,用于配置 OpenAI 文本转语音客户端。
属性 | 描述 | 默认值 |
---|---|---|
spring.ai.openai.image.enabled (已移除且不再有效) | 启用OpenAI图像生成模型 | true |
spring.ai.model.image | 启用OpenAI图像生成模型 | openai |
spring.ai.openai.image.base-url | 可选配置,覆盖spring.ai.openai.base-url以提供图像专用URL | - |
spring.ai.openai.image.api-key | 可选配置,覆盖spring.ai.openai.api-key以提供图像专用API密钥 | - |
spring.ai.openai.image.organization-id | 可选配置,指定用于API请求的组织ID | - |
spring.ai.openai.image.project-id | 可选配置,指定用于API请求的项目ID | - |
spring.ai.openai.image.options.n | 生成图像数量(1-10)。dall-e-3仅支持n=1 | - |
spring.ai.openai.image.options.model | 图像生成使用的模型 | OpenAiImageApi.DEFAULT_IMAGE_MODEL |
spring.ai.openai.image.options.quality | 生成图像质量。HD模式可生成细节更精细、更一致的图像(仅dall-e-3支持) | - |
spring.ai.openai.image.options.response_format | 生成图像的返回格式(URL或b64_json) | - |
spring.ai.openai.image.options.size |
生成图像尺寸。dall-e-2支持256x256/512x512/1024x1024;dall-e-3支持1024x1024/1792x1024/1024x1792 | - |
spring.ai.openai.image.options.size_width |
生成图像宽度(dall-e-2支持256/512/1024) | - |
spring.ai.openai.image.options.size_height |
生成图像高度(dall-e-2支持256/512/1024) | - |
spring.ai.openai.image.options.style |
生成图像风格(vivid超现实风格/natural自然风格,仅dall-e-3支持) | - |
spring.ai.openai.image.options.user |
终端用户唯一标识符,帮助OpenAI监控和检测滥用行为 | - |
运行时选项(Runtime Options )
OpenAiAudioSpeechOptions
类提供了在进行文本转语音请求时可使用的选项。启动时,系统会采用 spring.ai.openai.audio.speech
指定的选项,但你可以在运行时覆盖这些设置。
例如:
OpenAiAudioSpeechOptions speechOptions = OpenAiAudioSpeechOptions.builder()
.model("tts-1")
.voice(OpenAiAudioApi.SpeechRequest.Voice.ALLOY)
.responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.MP3)
.speed(1.0f)
.build();
SpeechPrompt speechPrompt = new SpeechPrompt("Hello, this is a text-to-speech example.", speechOptions);
SpeechResponse response = openAiAudioSpeechModel.call(speechPrompt);
手动配置(Manual Configuration)
添加 spring-ai-openai
依赖到你的项目 Maven pom.xml
文件:
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-openai</artifactId>
</dependency>
或者,在你的 Gradle 构建文件 build.gradle
中添加:
dependencies {
implementation 'org.springframework.ai:spring-ai-openai'
}
接下来,创建一个 OpenAiAudioSpeechModel
实例,并使用它:
var openAiAudioApi = new OpenAiAudioApi()
.apiKey(System.getenv("OPENAI_API_KEY"))
.build();
var openAiAudioSpeechModel = new OpenAiAudioSpeechModel(openAiAudioApi);
var speechOptions = OpenAiAudioSpeechOptions.builder()
.responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.MP3)
.speed(1.0f)
.model(OpenAiAudioApi.TtsModel.TTS_1.value)
.build();
var speechPrompt = new SpeechPrompt("Hello, this is a text-to-speech example.", speechOptions);
SpeechResponse response = openAiAudioSpeechModel.call(speechPrompt);
// Accessing metadata (rate limit info)
OpenAiAudioSpeechResponseMetadata metadata = response.getMetadata();
byte[] responseAsBytes = response.getResult().getOutput();
实时音频流(Streaming Real-time Audio)
语音 API 支持通过分块传输编码实现实时音频流传输
。这意味着在完整文件生成并可供访问之前,音频内容即可开始播放。
var openAiAudioApi = new OpenAiAudioApi()
.apiKey(System.getenv("OPENAI_API_KEY"))
.build();
var openAiAudioSpeechModel = new OpenAiAudioSpeechModel(openAiAudioApi);
OpenAiAudioSpeechOptions speechOptions = OpenAiAudioSpeechOptions.builder()
.voice(OpenAiAudioApi.SpeechRequest.Voice.ALLOY)
.speed(1.0f)
.responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.MP3)
.model(OpenAiAudioApi.TtsModel.TTS_1.value)
.build();
SpeechPrompt speechPrompt = new SpeechPrompt("Today is a wonderful day to build something people love!", speechOptions);
Flux<SpeechResponse> responseStream = openAiAudioSpeechModel.stream(speechPrompt);
最后编辑:Jeebiz 更新时间:2025-08-31 23:07