跳转至

type: entity tags: [tts, on-device, speech, lightweight, cpu, text-to-speech, 语音合成, 端侧推理] related: [[on-device-streaming-asr-microsoft]], [[huoziime-ondevice-llm-input-method]], [[xybrid-llm-asr-tts]] sources: - url: https://github.com/KittenML/KittenTTS title: "Kitten TTS - Open-source lightweight TTS" date: 2026-04-19 reliability: high - url: https://huggingface.co/KittenML/kitten-tts-mini-0.8 title: "Kitten TTS models on HuggingFace" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19


Kitten TTS v0.8: 超轻量级端侧语音合成

开源、ONNX驱动的TTS库,最小模型仅15M参数/25MB,纯CPU即可运行,支持8种语音和24kHz输出。GitHub 1003★。

核心信息

Kitten TTS是KittenML团队开发的开源轻量级文本转语音库,专注于端侧部署场景。v0.8版本提供了三个规模的模型:

模型 参数量 大小(int8) 适用场景
kitten-tts-nano 15M 25 MB 极限边缘设备、IoT
kitten-tts-micro 40M 41 MB 手机端常用
kitten-tts-mini 80M 80 MB 最佳质量,仍可CPU运行

核心特性

  • 纯CPU推理:基于ONNX,无需GPU
  • 8种内置语音:Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
  • 可调节语速:通过speed参数控制播放速率
  • 内置文本预处理:自动处理数字、货币、单位等
  • 24kHz输出:标准采样率的高质量音频
  • Apache 2.0许可证:可商用

技术架构

  • 基于ONNX Runtime推理
  • 模型量化(int8)大幅减小体积
  • 支持HuggingFace Spaces在线Demo

为什么重要

端侧TTS的最后一块拼图:在端侧AI生态中,ASR(语音识别)已有[[on-device-streaming-asr-microsoft]]等成熟方案,LLM推理有[[gemma4-ondevice]]等选择,但TTS一直是缺失环节。Kitten TTS的25MB int8模型填补了这个空白,使得完整的端侧语音交互成为可能(ASR → LLM推理 → TTS)。

与[[xybrid-llm-asr-tts]]的互补:xybrid展示了在同一个应用中集成LLM+ASR+TTS的能力,但需要Google的模型。Kitten TTS提供了更轻量的开源替代。

部署门槛极低:25MB的模型大小意味着可以嵌入任何移动应用,甚至网页端(通过ONNX.js)。与需要数百MB的Whisper或ChatTTS相比,Kitten TTS是真正的"零依赖"方案。

关联

  • [[on-device-streaming-asr-microsoft]] — 端侧语音识别,与TTS配合构成完整语音交互
  • [[huoziime-ondevice-llm-input-method]] — 同为端侧文本处理,但方向不同
  • [[xybrid-llm-asr-tts]] — 端侧多模态推理集成(LLM+ASR+TTS)
  • [[apple-intelligence]] — Apple生态的端侧AI方案也包含TTS能力