type: entity tags: [tts, gemini, google, 多模态, 语音合成, 端侧推理] related: [[gemma4-ondevice]], [[gemini-flash-live]], [[gemma4-audio-mlx]], [[anylanguagemodel-apple]] sources: - url: https://the-decoder.com/google-ships-its-most-expressive-gemini-3-1-text-to-speech-model-yet-with-70-language-support/ title: "Google ships its most expressive Gemini 3.1 text-to-speech model yet with 70+ language support" date: 2026-04-15 reliability: medium - url: https://blog.google/technology/ai/ title: "Google AI Blog" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16
Gemini 3.1 Flash TTS¶
Google基于Gemini 3.1 Flash推出新一代文本转语音模型,支持70+语言,引入Audio Tags实现风格/语速/音调精确控制,在质量价格比上击败ElevenLabs v3。
核心能力¶
Audio Tags — 精确语音控制 - 简单文本命令控制语音的风格(style)、语速(tempo)、音调(tone)、口音(accent) - 支持多说话人对话生成 - 开发者无需复杂SSML标记即可实现专业级语音效果
多语言支持 - 70+语言覆盖 - 统一模型处理多语言混合输入 - 对[[anylanguagemodel-apple]]的Apple多语言模型形成直接竞争
性能与排名¶
在Artificial Analysis排名中: - Elo评分:1,211 - 质量价格比维度表现突出 - 质量超越ElevenLabs v3,仅次于Inworld 1.5 Max - 排名前列的TTS模型之一
定价¶
| 层级 | 文本输入 | 音频输出 | 备注 |
|---|---|---|---|
| 免费层 | 免费 | 免费 | Google使用数据改进产品 |
| 付费层 | $1.00/百万token | $20.00/百万token | 不使用数据 |
| 批处理模式 | $0.50/百万token | $10.00/百万token | 半价 |
可用渠道¶
- Gemini API(Preview阶段)
- Vertex AI(企业用户)
- Google Vids(Workspace用户)
- Google AI Studio(免费试用)
- 所有生成音频均带SynthID水印
对移动AIOS的意义¶
端侧TTS竞争格局:Gemini 3.1 Flash TTS目前是云端API服务,但其轻量级架构暗示了端侧部署的潜力。Google在[[gemma4-ondevice]]等端侧模型上的策略一贯是"先云端验证,再端侧压缩"。
多语言Agent语音输出:70+语言支持对全球化移动Agent场景(如[[clawmobile-agentic]]的原生Agent)至关重要。Audio Tags功能使Agent能根据上下文调整语音风格,提升用户体验。
质量价格比优势:$20/百万token的音频输出价格具有竞争力,对移动端集成API调用友好。
为什么重要¶
TTS是移动AIOS Agent系统的输出通道。[[gemini-flash-live]]的实时对话能力需要高质量TTS配合。Gemini 3.1 Flash TTS的Audio Tags功能为Agent语音输出提供了前所未有的控制粒度——Agent可以根据任务紧急程度调整语速、根据用户情绪调整语调,实现更自然的人机交互。
关联¶
- [[gemma4-ondevice]] — Google端侧模型生态
- [[gemini-flash-live]] — Gemini实时对话能力
- [[gemma4-audio-mlx]] — Gemma 4音频处理能力
- [[anylanguagemodel-apple]] — Apple多语言模型对比
- [[clawmobile-agentic]] — 原生Agent语音交互
- [[mobile-agent-ecosystem-friction]] — 移动Agent交互体验