type: entity tags: [tts, on-device, ios, kokoro, privacy, offline, audiobook, swift, thermal-management] related: [[kitten-tts]], [[litertlm-swift-ios]], [[xybrid-ondevice-ai-sdk]], [[nanowakeword-wake-word]] sources: - url: https://loudreader.io title: "LoudReader — Every text is an audiobook" date: 2026-04-19 reliability: medium - url: https://news.ycombinator.com/item?id=43688921 title: "Show HN: I built on-device TTS app because I run out of audiobooks on a flight" date: 2026-04-19 reliability: medium created: 2026-04-20 updated: 2026-04-20
LoudReader: 端侧 TTS 阅读应用¶
基于 Kokoro 的 iOS 端侧 TTS 应用,完全离线运行,支持 EPUB/PDF 导入,8 种 AI 语音,实时逐句高亮同步。开发者用 Claude Code + Codex 在周末开发了 2-3 个月。
核心问题¶
现有的 TTS 和有声书服务大多依赖云端 API——需要上传文档到第三方服务器、消耗移动数据、受网络延迟影响。在飞行模式或隐私敏感场景(法律文件、工作备忘录)下,用户需要完全端侧的解决方案。
方法/架构¶
技术栈¶
- TTS 引擎: Kokoro(开源 TTS 模型)为主力
- 降级方案: KittenTTS(更轻量的 TTS)用于旧设备
- 分词器: misaki(从 Python 移植到 Swift)
- 平台: iOS,使用 Swift 原生开发
- 运行模式: 完全离线,零网络依赖
关键技术挑战与解决方案¶
1. 流式合成 - 问题: 等待整句合成完成会导致明显延迟 - 方案: 流式合成——播放在句子完成前就开始,实现"边生成边播放" - 效果: 用户感知延迟大幅降低
2. 热管理策略 - 问题: TTS 推理持续消耗 CPU/GPU,导致设备发热和降频 - 方案: 实现了热监控和自适应策略——检测设备温度并在需要时降低处理质量 - 这是端侧持续推理应用的核心工程挑战
3. 设备兼容性降级 - iPhone 14 Pro 及以上: Kokoro 运行流畅 - iPhone 12 Pro 等旧设备: 自动降级到 KittenTTS(更轻量但质量略低) - 自适应模型选择策略
应用功能¶
- 支持 EPUB 和 PDF 导入
- 70,000+ 本 Project Gutenberg 免费经典书籍
- 8 种端侧 AI 语音
- 逐句高亮同步(阅读 + 听觉双通道)
- 0.3x 到 3.0x 速度调节
- 睡眠定时器、白噪音音景、夜间模式
- 阅读笔记和书签
实验结果/关键数据¶
| 指标 | 详情 |
|---|---|
| 模型大小 | Kokoro + KittenTTS 降级 |
| 最低支持设备 | iPhone 12 Pro(降级模式) |
| 推荐设备 | iPhone 14 Pro 及以上 |
| 网络需求 | 零(安装后完全离线) |
| 语音数量 | 8 种 |
| 开发周期 | 2-3 个月(周末兼职) |
| 开发工具 | Claude Code + Codex |
关键洞察¶
-
端侧 TTS 的工程门槛: 模型推理本身只是"第一步"——流式合成、热管理、设备适配等工程细节才是让产品"不像 demo"的关键。这反映了端侧 AI 应用的普遍规律。
-
热管理是端侧持续推理的核心挑战: 持续的 TTS 推理会触发设备热降频。LoudReader 的热监控策略(检测温度 → 动态调整质量)是端侧 AI 应用的必备技术。
-
多模型降级策略: 为不同设备性能准备多个模型版本,根据运行时条件自动切换。这种模式值得所有端侧 AI 应用借鉴。
-
AI 编程工具的杠杆效应: 一个人用 Claude Code + Codex 在周末开发出完整的端侧 AI 应用,展示了 AI 辅助开发在端侧 AI 民主化中的作用。
为什么重要¶
LoudReader 是端侧 AI 应用的优秀案例研究: - 隐私优先: "Nothing leaves your phone" 的设计哲学 - 实用工程: 展示了从模型到产品的完整工程链路(流式合成、热管理、降级策略) - 开发效率: Claude Code + Codex 辅助的开发模式 - 商业模式验证: 在 App Store 上的端侧 AI 应用可行性
对手机端 AIOS 生态来说,LoudReader 证明了端侧 TTS 已经可以做到"不只是 demo"的水平。
关联¶
- [[kitten-tts]] — LoudReader 使用的降级 TTS 引擎
- [[litertlm-swift-ios]] — iOS 端侧 LLM 框架,类似的 Swift + 端侧推理模式
- [[xybrid-ondevice-ai-sdk]] — 端侧 AI SDK,提供类似的推理能力
- [[nanowakeword-wake-word]] — 另一个端侧音频 AI 应用案例