type: entity tags: [tts, on-device, speech, lightweight, cpu, text-to-speech, 语音合成, 端侧推理] related: [[on-device-streaming-asr-microsoft]], [[huoziime-ondevice-llm-input-method]], [[xybrid-llm-asr-tts]] sources: - url: https://github.com/KittenML/KittenTTS title: "Kitten TTS - Open-source lightweight TTS" date: 2026-04-19 reliability: high - url: https://huggingface.co/KittenML/kitten-tts-mini-0.8 title: "Kitten TTS models on HuggingFace" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19
Kitten TTS v0.8: 超轻量级端侧语音合成¶
开源、ONNX驱动的TTS库,最小模型仅15M参数/25MB,纯CPU即可运行,支持8种语音和24kHz输出。GitHub 1003★。
核心信息¶
Kitten TTS是KittenML团队开发的开源轻量级文本转语音库,专注于端侧部署场景。v0.8版本提供了三个规模的模型:
| 模型 | 参数量 | 大小(int8) | 适用场景 |
|---|---|---|---|
| kitten-tts-nano | 15M | 25 MB | 极限边缘设备、IoT |
| kitten-tts-micro | 40M | 41 MB | 手机端常用 |
| kitten-tts-mini | 80M | 80 MB | 最佳质量,仍可CPU运行 |
核心特性¶
- 纯CPU推理:基于ONNX,无需GPU
- 8种内置语音:Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
- 可调节语速:通过speed参数控制播放速率
- 内置文本预处理:自动处理数字、货币、单位等
- 24kHz输出:标准采样率的高质量音频
- Apache 2.0许可证:可商用
技术架构¶
- 基于ONNX Runtime推理
- 模型量化(int8)大幅减小体积
- 支持HuggingFace Spaces在线Demo
为什么重要¶
端侧TTS的最后一块拼图:在端侧AI生态中,ASR(语音识别)已有[[on-device-streaming-asr-microsoft]]等成熟方案,LLM推理有[[gemma4-ondevice]]等选择,但TTS一直是缺失环节。Kitten TTS的25MB int8模型填补了这个空白,使得完整的端侧语音交互成为可能(ASR → LLM推理 → TTS)。
与[[xybrid-llm-asr-tts]]的互补:xybrid展示了在同一个应用中集成LLM+ASR+TTS的能力,但需要Google的模型。Kitten TTS提供了更轻量的开源替代。
部署门槛极低:25MB的模型大小意味着可以嵌入任何移动应用,甚至网页端(通过ONNX.js)。与需要数百MB的Whisper或ChatTTS相比,Kitten TTS是真正的"零依赖"方案。
关联¶
- [[on-device-streaming-asr-microsoft]] — 端侧语音识别,与TTS配合构成完整语音交互
- [[huoziime-ondevice-llm-input-method]] — 同为端侧文本处理,但方向不同
- [[xybrid-llm-asr-tts]] — 端侧多模态推理集成(LLM+ASR+TTS)
- [[apple-intelligence]] — Apple生态的端侧AI方案也包含TTS能力