Scripts to Audiobook:一段 AI 编码之旅

Scripts to Audiobook:一段 AI 编码之旅 🎧
我是个电影迷,也是有声书的重度消费者。有段时间我一直在想:能不能从 AI 生成的脚本自动生成个性化的有声书?
这个个人想法催生了我的最新项目:Scripts to Audiobook — 一个将脚本转换为多声音有声书的工具,支持可配置的 TTS 供应商。
我在 3 月 15 日开始构建,3 月 20 日凌晨发布。在这约 5 天里(包括一个周末),我先后使用了三个 AI 编码助手。以下是发生的事情。
起点:Perplexity Computer Use
我从 Perplexity 的 Computer Use 功能开始,被它”高完成率”的承诺和令人印象深刻的实时预览能力所吸引。作为 Pro 订阅者(4,500 积分),我认真尝试了它 — 积分从 3,400+ 掉到 2,200+ 后暂停。
我的体验褒贬不一:
有效的部分:
- 实时预览 — 即时看到变化非常有价值
- 交互式开发 — 对话流程感觉自然高效
- 快速原型 — 非常适合测试想法和快速迭代
无效的部分:
- 积分消耗快 — 1,200+ 积分换取部分完成度,成本很高
- 完成度差距 — AI 倾向于激进地”品牌化”(以自己命名),需要手动清理
- 生产就绪度 — 虽然演示令人印象深刻,但输出需要大量打磨才能实际使用
我停止不是因为无法完成工作,而是鉴于当前状态,完成全部的积分成本不值得。它是探索和演示的绝佳工具,但我会把它留给小项目或验证阶段。
第二阶段:Kimi Code 和 Token 燃烧
我切换到 Kimi Code,希望其专注的方法会更有效。确实有效 — 我快速用光了两个周配额。
发生的事情是:我的配额耗尽,它重置,我又快速用完。部分是因为我在周末高强度工作,但主要是因为:
- 范围蔓延 — 构建中途需求发生变化(新的 TTS 供应商、音频格式选项、章节支持)
- 重构循环 — 修复 bug 导致更多 bug,反复重写
- 上下文丢失 — 开始新会话意味着每次都要重新解释项目
工具本身是能干的,但工作流程低效。我在用时间换 token。
第三阶段:Claude Code 和终点线
最后,我切换到 Claude Code(Anthropic 的终端编码代理)。三件事让它奏效了:
- 丰富的项目上下文 — 它可以阅读整个代码库并理解架构
- 迭代优化 — 小而针对性更改,而不是全面重写
- 稳定性 — 昨天能用的今天继续能用
在一次专注的会话中,我:
- 实现了剩余功能(章节支持、TTS 切换)
- 修复了所有未解决的 bug
- 打磨了 UI 和文档
- 编写了全面的测试
区别在哪? 感觉像和一位理解大局的高级工程师一起工作。
输出:我构建了什么
经过这一切,这是我构建的:
Scripts to Audiobook 使用你选择的 TTS 供应商将结构化脚本转换为多声音有声书。
核心功能
- 🎭 多种声音 — 为每个角色分配不同的声音
- 📖 章节支持 — 将长内容组织成部分
- 🔧 TTS 灵活性 — 在供应商之间切换(Edge TTS、OpenAI、ElevenLabs 等)
- 🎛️ 可配置输出 — 控制音频格式、比特率和速度
独特之处
- 免费使用 — Edge TTS 不需要 API 密钥;其他供应商提供免费层
- AI 无关 — 适用于来自任何 AI 的脚本(Claude、GPT、Gemini 等)
- 新手友好 UI — 简单的配置界面,无需编码
技术栈
- TypeScript — 类型安全和更好的 DX
- Node.js — 跨平台运行时
- Edge TTS / OpenAI / ElevenLabs — TTS 供应商
- FFmpeg — 音频处理和格式转换
关键经验
- 工具选择很重要 — 不同的 AI 编码助手有不同的优势。匹配工具到阶段。
- Token 效率 — 丰富的上下文和迭代优化胜过蛮力重写。
- 快速发布,迭代 — 第一版本不需要完美。它只需要能工作。
AI 增强编码之美
整个项目 — 从想法到发布产品 — 花了不到 5 天。而我不是专业开发者。
美不在于第一次就完美 — 而在于能够快速迭代、从错误中学习、继续前进。
AI 编码助手不是人类判断的替代品。它们是力量倍增器。它们帮助你移动得更快、思考更大、发布更聪明。
后续计划
我已经考虑 v2:
- 更容易配置的 Web UI
- 更多 TTS 供应商(Azure、Google、Amazon)
- 声音克隆支持
- 多脚本批处理
但首先,我要休息一下。发布的感觉很好。😊
在 GitHub 上查看: scripts-to-audiobook
Made with 💙 by Nicky & AI