跳转至

type: entity tags: [tts, gemini, google, 多模态, 语音合成, 端侧推理] related: [[gemma4-ondevice]], [[gemini-flash-live]], [[gemma4-audio-mlx]], [[anylanguagemodel-apple]] sources: - url: https://the-decoder.com/google-ships-its-most-expressive-gemini-3-1-text-to-speech-model-yet-with-70-language-support/ title: "Google ships its most expressive Gemini 3.1 text-to-speech model yet with 70+ language support" date: 2026-04-15 reliability: medium - url: https://blog.google/technology/ai/ title: "Google AI Blog" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16


Gemini 3.1 Flash TTS

Google基于Gemini 3.1 Flash推出新一代文本转语音模型,支持70+语言,引入Audio Tags实现风格/语速/音调精确控制,在质量价格比上击败ElevenLabs v3。

核心能力

Audio Tags — 精确语音控制 - 简单文本命令控制语音的风格(style)、语速(tempo)、音调(tone)、口音(accent) - 支持多说话人对话生成 - 开发者无需复杂SSML标记即可实现专业级语音效果

多语言支持 - 70+语言覆盖 - 统一模型处理多语言混合输入 - 对[[anylanguagemodel-apple]]的Apple多语言模型形成直接竞争

性能与排名

在Artificial Analysis排名中: - Elo评分:1,211 - 质量价格比维度表现突出 - 质量超越ElevenLabs v3,仅次于Inworld 1.5 Max - 排名前列的TTS模型之一

定价

层级 文本输入 音频输出 备注
免费层 免费 免费 Google使用数据改进产品
付费层 $1.00/百万token $20.00/百万token 不使用数据
批处理模式 $0.50/百万token $10.00/百万token 半价

可用渠道

  • Gemini API(Preview阶段)
  • Vertex AI(企业用户)
  • Google Vids(Workspace用户)
  • Google AI Studio(免费试用)
  • 所有生成音频均带SynthID水印

对移动AIOS的意义

端侧TTS竞争格局:Gemini 3.1 Flash TTS目前是云端API服务,但其轻量级架构暗示了端侧部署的潜力。Google在[[gemma4-ondevice]]等端侧模型上的策略一贯是"先云端验证,再端侧压缩"。

多语言Agent语音输出:70+语言支持对全球化移动Agent场景(如[[clawmobile-agentic]]的原生Agent)至关重要。Audio Tags功能使Agent能根据上下文调整语音风格,提升用户体验。

质量价格比优势:$20/百万token的音频输出价格具有竞争力,对移动端集成API调用友好。

为什么重要

TTS是移动AIOS Agent系统的输出通道。[[gemini-flash-live]]的实时对话能力需要高质量TTS配合。Gemini 3.1 Flash TTS的Audio Tags功能为Agent语音输出提供了前所未有的控制粒度——Agent可以根据任务紧急程度调整语速、根据用户情绪调整语调,实现更自然的人机交互。

关联

  • [[gemma4-ondevice]] — Google端侧模型生态
  • [[gemini-flash-live]] — Gemini实时对话能力
  • [[gemma4-audio-mlx]] — Gemma 4音频处理能力
  • [[anylanguagemodel-apple]] — Apple多语言模型对比
  • [[clawmobile-agentic]] — 原生Agent语音交互
  • [[mobile-agent-ecosystem-friction]] — 移动Agent交互体验