OpenAI - Powered by MinDoc

OpenAI 文本转语音（TTS）

音频 API 提供了一个基于 OpenAI 文本转语音（TTS）模型的语音端点，使用户能够：

讲述一篇书面博客文章。
生成多语言的口语音频。
使用流式传输提供实时音频输出。

前提条件（Prerequisites）

你需要使用 OpenAI 创建一个 API 来访问 ChatGPT 模型。
在 OpenAI 注册页面创建一个账户，并在 API Keys 页面生成令牌。
Spring AI 项目定义了一个名为 spring.ai.openai.api-key 的配置属性，你应该将其设置为从 openai.com 获取的 API Key 的值。

可以在 application.properties 文件中设置这个配置属性：

spring.ai.openai.api-key=<your-openai-api-key>

为了提高处理 API 密钥等敏感信息时的安全性，可以使用 Spring 表达式语言 (SpEL) 来引用自定义环境变量：

# In application.yml
spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}

# In your environment or .env file
export OPENAI_API_KEY=<your-openai-api-key>

您还可以在 application 代码中以编程方式设置这个配置属性：

// Retrieve API key from a secure source or environment variable
String apiKey = System.getenv("OPENAI_API_KEY");

添加存储库和 BOM

Spring AI 工件发布在 Spring Milestone 和 Snapshot 存储库中。请参阅存储库部分将这些存储库添加到您的构建系统中。

为了帮助进行依赖管理，Spring AI 提供了 BOM（物料清单），以确保在整个项目中使用一致的 Spring AI 版本。请参阅依赖管理部分将 Spring AI BOM 添加到您的构建系统。

自动配置（Auto-configuration）

Spring AI 为 OpenAI 嵌入模型提供了 Spring Boot 自动配置。要启用它，请将以下依赖项添加到项目的 Maven pom.xml文件中：

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>

或者，在你的 Gradle 构建文件 build.gradle 中添加：

dependencies {
    implementation 'org.springframework.ai:spring-ai-starter-model-openai'
}

语音属性（Speech Properties）

Retry 属性（Retry Properties）

前缀 spring.ai.retry 用作属性前缀，允许您为 OpenAI 模型配置 retry 机制。

属性	描述	默认值
`spring.ai.retry.max-attempts`	最大重试次数。	`10`
`spring.ai.retry.backoff.initial-interval`	指数退避策略的初始睡眠持续时间。	`2 sec.`
`spring.ai.retry.backoff.multiplier`	退避间隔乘数。	`5`
`spring.ai.retry.backoff.max-interval`	最大退避持续时间。	`3 min.`
`spring.ai.retry.on-client-errors`	如果为false，抛出NonTransientAiException，并且不会对`4xx`客户端错误码进行重试。	`false`
`spring.ai.retry.exclude-on-http-codes`	不应触发重试的HTTP状态码列表（例如抛出NonTransientAiException）。	`empty`
`spring.ai.retry.on-http-codes`	应触发重试的HTTP状态码列表（例如抛出TransientAiException）。	`empty`

连接属性（Connection Properties）

前缀是 spring.ai.openai 的属性，用于配置 OpenAI 的链接。

属性	描述	默认值
spring.ai.openai.base-url	连接的URL地址	https://api.openai.com
spring.ai.openai.api-key	API密钥	-
spring.ai.openai.organization-id	（可选）可指定用于API请求的组织ID	-
spring.ai.openai.project-id	（可选）可指定用于API请求的项目ID	-

配置属性（Configuration Properties）

前缀是 spring.ai.openai.audio.speech 作为属性前缀，用于配置 OpenAI 文本转语音客户端。

属性	描述	默认值
spring.ai.openai.image.enabled (已移除且不再有效)	启用OpenAI图像生成模型	true
spring.ai.model.image	启用OpenAI图像生成模型	openai
spring.ai.openai.image.base-url	可选配置，覆盖spring.ai.openai.base-url以提供图像专用URL	-
spring.ai.openai.image.api-key	可选配置，覆盖spring.ai.openai.api-key以提供图像专用API密钥	-
spring.ai.openai.image.organization-id	可选配置，指定用于API请求的组织ID	-
spring.ai.openai.image.project-id	可选配置，指定用于API请求的项目ID	-
spring.ai.openai.image.options.n	生成图像数量(1-10)。dall-e-3仅支持n=1	-
spring.ai.openai.image.options.model	图像生成使用的模型	OpenAiImageApi.DEFAULT_IMAGE_MODEL
spring.ai.openai.image.options.quality	生成图像质量。HD模式可生成细节更精细、更一致的图像(仅dall-e-3支持)	-
spring.ai.openai.image.options.response_format	生成图像的返回格式(URL或b64_json)	-
`spring.ai.openai.image.options.size`	生成图像尺寸。dall-e-2支持256x256/512x512/1024x1024；dall-e-3支持1024x1024/1792x1024/1024x1792	-
`spring.ai.openai.image.options.size_width`	生成图像宽度(dall-e-2支持256/512/1024)	-
`spring.ai.openai.image.options.size_height`	生成图像高度(dall-e-2支持256/512/1024)	-
`spring.ai.openai.image.options.style`	生成图像风格(vivid超现实风格/natural自然风格，仅dall-e-3支持)	-
`spring.ai.openai.image.options.user`	终端用户唯一标识符，帮助OpenAI监控和检测滥用行为	-

运行时选项（Runtime Options ）

OpenAiAudioSpeechOptions 类提供了在进行文本转语音请求时可使用的选项。启动时，系统会采用 spring.ai.openai.audio.speech指定的选项，但你可以在运行时覆盖这些设置。

例如：

OpenAiAudioSpeechOptions speechOptions = OpenAiAudioSpeechOptions.builder()
    .model("tts-1")
    .voice(OpenAiAudioApi.SpeechRequest.Voice.ALLOY)
    .responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.MP3)
    .speed(1.0f)
    .build();

SpeechPrompt speechPrompt = new SpeechPrompt("Hello, this is a text-to-speech example.", speechOptions);
SpeechResponse response = openAiAudioSpeechModel.call(speechPrompt);

手动配置（Manual Configuration）

添加 spring-ai-openai 依赖到你的项目 Maven pom.xml 文件:

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-openai</artifactId>
</dependency>

或者，在你的 Gradle 构建文件 build.gradle 中添加：

dependencies {
    implementation 'org.springframework.ai:spring-ai-openai'
}

接下来，创建一个 OpenAiAudioSpeechModel 实例，并使用它：

 var openAiAudioApi = new OpenAiAudioApi()
    .apiKey(System.getenv("OPENAI_API_KEY"))
    .build();

var openAiAudioSpeechModel = new OpenAiAudioSpeechModel(openAiAudioApi);

var speechOptions = OpenAiAudioSpeechOptions.builder()
    .responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.MP3)
    .speed(1.0f)
    .model(OpenAiAudioApi.TtsModel.TTS_1.value)
    .build();

var speechPrompt = new SpeechPrompt("Hello, this is a text-to-speech example.", speechOptions);
SpeechResponse response = openAiAudioSpeechModel.call(speechPrompt);

// Accessing metadata (rate limit info)
OpenAiAudioSpeechResponseMetadata metadata = response.getMetadata();

byte[] responseAsBytes = response.getResult().getOutput();

实时音频流（Streaming Real-time Audio）

语音 API 支持通过分块传输编码实现实时音频流传输。这意味着在完整文件生成并可供访问之前，音频内容即可开始播放。

var openAiAudioApi = new OpenAiAudioApi()
    .apiKey(System.getenv("OPENAI_API_KEY"))
    .build();

var openAiAudioSpeechModel = new OpenAiAudioSpeechModel(openAiAudioApi);

OpenAiAudioSpeechOptions speechOptions = OpenAiAudioSpeechOptions.builder()
    .voice(OpenAiAudioApi.SpeechRequest.Voice.ALLOY)
    .speed(1.0f)
    .responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.MP3)
    .model(OpenAiAudioApi.TtsModel.TTS_1.value)
    .build();

SpeechPrompt speechPrompt = new SpeechPrompt("Today is a wonderful day to build something people love!", speechOptions);

Flux<SpeechResponse> responseStream = openAiAudioSpeechModel.stream(speechPrompt);

作者：Jeebiz 创建时间：2025-08-08 00:54
最后编辑：Jeebiz 更新时间：2025-09-28 09:15