Book-Agent 完全解析:六位AI智能体 × 十四道工序的工业级小说生产管线
摘要:Book-Agent 是一套基于 Hermes Agent 框架的工业级 AI 小说创作管线。它由六个专业化的 AI 智能体协同完成十四道标准化工序,覆盖从大纲设计到多格式发布的全流程。经过两个真实项目的百万字实战验证,已建立完整的 120 维自动化质量评估体系。本文从架构设计、智能体分工、质量门禁、红线系统、题材适配、故障恢复、执行模式、实操数据和技术实现等十个维度,完整解析这套系统的设计哲学与工程实践。
一、引言:长篇小说创作的系统化困境
长篇小说创作是人工智能领域最富挑战性的应用场景之一。传统 AI 写作工具多采用"单次生成"模式——输入提示词、输出全文。这种方式存在根本性缺陷:生成文本缺乏整体一致性,前文设定在中后段被遗忘;角色行为缺乏连贯的动机链;叙事节奏不可控;更重要的是,无法对产出质量进行系统性评估和改进。
人类作家在创作长篇小说时,会经历构思、大纲、人物小传、场景卡、初稿、修订、校对等多个阶段。每个阶段都有特定的方法和工具。Book-Agent 所做的,就是将这套成熟的人类创作方法论转化为 AI 智能体可以协作执行的标准化流水线。
该项目的核心理念十分明确:将小说创作从依赖灵感的"手工小作坊"升级为流程可控的"工业生产线"。它借鉴了软件工程中的敏捷迭代、持续集成和代码审查等实践,将创作过程拆解为十四道可验证的工序,由六个各司其职的 AI 智能体协作完成。每道工序都有明确的输入标准、产出规范和验收条件,确保最终产品的质量可预期、可度量、可复现。
Book-Agent 已迭代至 v3.7.1 版本,并在两个真实项目中长期运行:都市 AI 题材《判断权》(陈默·北京2022)和游戏穿越题材《峡谷至尊》(李继祖)。两个项目风格迥异、难度不同,共同验证了管线系统的通用性和稳定性。累计产出超过百万字,单章平均耗时 35-50 分钟,最高审计评分达到 S 级(1080+/1200)。
二、系统架构:六位智能体的协作网络
2.1 智能体角色的专业化分工
Book-Agent 的核心是六个具有不同专业能力的 AI 智能体,每个智能体被赋予特定的角色定位和职责边界。这种专业化分工借鉴了好莱坞电影工业的制片体系:
| 智能体 | 工序编号 | 核心职责 | 产出目录 |
|---|---|---|---|
| Director(导演) | 0, 11, 13 | 章节定位、节奏设计、修改决策、发布管理 | 0_outline/ 11_notes/ 13_release/ |
| Screenwriter(编剧) | 1 | 场景结构、出场规划、空间时间设计 | 1_world/ |
| LoreKeeper(设定守护者) | 2,3,4,7,8,12 | 事实核查、角色弧线、预检审计、连贯验证、终审评估 | 多个目录 |
| Writer(执笔者) | 5 | 基于所有上游输入撰写正文初稿 | 5_drafts/ |
| Polisher(精修师) | 6 | 语言润色、去AI味检测、风格统一 | 6_polished/ |
| Feedback(读者代表) | 9, 10 | 可读性评估、情感共鸣分析、场景插画建议 | 9_iteration/ 10_illustration/ |
LoreKeeper 承担了最多的工序(六道),是管线中最繁忙的角色。这是因为设定一致性是长篇小说创作中最容易出问题、也最难自动化的环节。LoreKeeper 的核心价值在于:它是整个系统的"记忆守护者",确保一百章之后的故事仍然遵循第一章建立的规则体系。
每个智能体的 prompt 中都包含明确的边界声明——即"NOT RESPONSIBLE FOR"段落。例如,Writer 的 prompt 明确声明不负责设定决策和事实修正,LoreKeeper 的 prompt 声明不负责正文撰写。这种边界防止了越界输出,确保每个智能体只在擅长的领域发挥作用。
2.2 十四道工序的流水线设计
十四道工序以严格的串行方式依次执行。每道工序的产出文件保存在磁盘上,作为下一道工序的输入。主 agent(人机协作的编排者)在每道工序完成后执行产出验证,验证通过才进入下一工序:
- Flow 0 导演笔记:Director 读取 truth 文件和上一章结尾,执行"章节定位三问"——这一章要证明什么命题?读者为什么要关心?它在全书的战略位置是什么?输出包括核心事件链、节奏表和红线清单。
- Flow 1 世界构建:Screenwriter 将导演笔记转化为具体的世界设定——场景地理信息、时间精度、出场人物清单、环境氛围要素。这一层相当于电影的"分镜脚本"。
- Flow 2 事实调研:LoreKeeper 对世界设定进行全面的设定一致性核查,确保与全局 truth 文件吻合。同时根据章节需要补充外部专业知识(如法律流程、医学细节等)。
- Flow 3 角色弧线:LoreKeeper 构建每个出场人物的情感轨迹和行动动机,特别注意人物的心理变化要符合其性格设定和历史经历。
- Flow 4 Truth 预检(G1门禁):LoreKeeper 执行十一项完整性预检——人物一致性、剧情逻辑、时间线、世界观、能力体系、科技树、道具、关系网络、概念定义、红线遵守和外部知识准确。任何一项不通过则回退到 Flow 1 修改世界设定。
- Flow 5 正文草稿:Writer 基于所有上游输入撰写正文。标准章强制五千字以上,高潮章六千字以上。Writer 只负责文字表达,不参与设定决策。
- Flow 6 精修润色:Polisher 对草稿进行全面语言优化——去除 AI 味表达、优化句式结构、控制叙事节奏、统一风格调性。字数不足则在此阶段标记回退。
- Flow 7 审计评估(G2门禁):LoreKeeper 执行完整的 120 维质量审计。要求综合评分 ≥ 900 分(B级),否则回退到 Flow 5 重写。
- Flow 8 连贯性检查(G3门禁):LoreKeeper 跨五章范围检查设定一致性。任何新旧设定之间的矛盾都被标记并必须修复。
- Flow 9 读者反馈:Feedback 以普通读者的视角阅读全文,从信息密度、节奏舒适度、情感投入度和主题明确性四个维度给出评价。
- Flow 10 场景插图:Feedback 基于正文内容生成关键场景的视觉化描述,供后续人工配图或 AI 绘图使用。
- Flow 11 修改闭环:Director 汇总 Flow 7-10 的所有反馈,决定是否需要修改及修改方向。最多迭代三轮,两轮分数持平则强制退出。
- Flow 12 终审评估(G4门禁):LoreKeeper 执行全量终审,要求评分 ≥ 1020 分(A级),否则回退到 Flow 11+7。
- Flow 13 发布就绪:Director 将终版正文转换为 Markdown、HTML、TXT 等多种发布格式,并更新项目进度文件。
三、质量体系:120维审计矩阵与四级硬门禁
Book-Agent 最核心的技术创新在于建立了可量化、可验证的自动化质量评估体系。这套体系将文学创作中难以捉摸的"写得好不好"问题,转化为 120 个可计算、可比较、可改进的具体指标。
3.1 审计矩阵的维度设计
审计矩阵将小说质量分解为十二个评估组,每组包含十个评价维度,总分为 1200 分。十二个组覆盖了从宏观叙事到微观语言的全部层面:第一组"故事架构"评估情节逻辑性、节奏控制力、冲突设计强度、悬念设置技巧、高潮布局合理性、转折自然度、线索埋设精度、子线完成度、首尾呼应性和章节独立性。第二组"人物塑造"评估性格一致性、成长轨迹清晰度、对话个性化程度、行动动机合理性、情感深度、关系变化合理性、配角完成度、群像刻画、心理真实度和辨识度。第三组"文笔表达"评估语言准确性、句式多样性、描写生动性、修辞恰当性、风格一致性、对话自然度、细节丰富度、节奏感、色彩感和声音感。后续各组依次涵盖设定一致性、读者体验、反 AI 味、文化准确性、类型遵循度、技术自洽性、结构完整性、情感感染力和创新性。每组满分 100 分(十维×十分),总分 1200 分。
这种分组设计有明确的工程考量:每个评估组相对独立,某个组的低分可以精准定位问题源头。例如,"人物塑造"组低于 70 分意味着角色层面需要重新设计,而"文笔表达"组低分则指向语言层面的问题。
3.2 四级硬门禁机制
管线中设置了四个硬性质量门禁,每道门禁都是不可跳过的检查点:
- G1(Flow 4→Flow 5):十一项 Truth 预检全部通过。这是 WiP 通往 Writer 的最后一道防线。不通过则回退到 Flow 1,由 Screenwriter 和 LoreKeeper 共同修改世界设定。
- G2(Flow 6→Flow 7):字数 ≥5000 + AI 味零命中 + 审计评分 ≥900(B级)。不通过则回退到 Flow 5,由 Writer 重写正文。
- G3(Flow 8→Flow 9):跨五章设定零矛盾。不通过则回退到 Flow 6,由 Polisher 返工修复。
- G4(Flow 12→Flow 13):终审评分 ≥1020(A级)。不通过则回退到 Flow 11,由 Director 和 LoreKeeper 联合修改。
四级门禁的严格程度逐级递增。G1 是预防性的——在问题发生前拦截;G2 和 G3 是修复性的——在问题出现后定位并修正;G4 是终验性的——在发布前做最后一次全面体检。
3.3 评分等级与决策规则
1080-1200 分为 S 级(直接发布),960-1079 分为 A 级(小修后发布),900-959 分为 B 级(需返回修改),800-899 分为 C 级(需返回重写),低于 800 分为 D 级(需重新设定)。审计系统默认不通过——这意味着每章在经过人工确认之前,默认被视为"不合格"。通过需要审计报告逐项列出通过证据。
四、红线系统:三类零容忍的质量底线
Book-Agent 定义了三条绝不可触碰的红线。任何一条被违反,都会触发立即回退,没有商量的余地。
4.1 Truth 红线:设定守则
每个项目维护九个 truth JSON 文件:人物库(characters.json)、剧情线(plot.json)、世界观(world.json)、时间线(timeline.json)、能力体系(power.json)、科技树(tech.json)、道具系统(props.json)、关系网络(relationships.json)和核心概念(concepts.json)。这九个文件构成项目的"宪法层级"。正文中任何句子都不得与 truth 文件中的定义冲突。例如,《判断权》的 truth 中定义"陈默在第一卷结束时尚未觉醒能力",那么正文中如果出现陈默使用超能力的描写,就会被审计系统标记为红线违规。引入新设定前,必须先更新对应的 truth 文件,再经过一致性验证。这套机制从根本上杜绝了长篇小说最常见的"吃设定"问题。
4.2 AI 味红线:语言自然度守则
Book-Agent 维护了一份不断增长的 AI 味禁用词表。这些词汇和句式在大语言模型的输出中出现频率极高,但在人类创作中几乎不会以同样方式出现。禁用词包括:"深吸一口气""某种""莫名的""瞳孔骤缩""嘴角勾起一抹""五味杂陈""眼神中闪过一丝""不由自主""鬼使神差""命运的齿轮""仿佛有什么""他突然觉得""那一刻他明白了""内心深处""仿佛被什么击中""就连空气都变得""仿佛听到了什么"。禁用句式包括:"不是 A 而是 B"的对比结构、"心中涌起……"的表述、"原来如此"作为独立段落等。审计系统在 Flow 7 和 Flow 12 对这些禁用词进行零容忍检测,命中一条即相关维度扣分至零并触发回退重写。
4.3 字数红线:内容充实度守则
标准章强制要求 ≥5000 CJK 字,过渡章 ≥2500 字,高潮章 ≥6000 字。这一要求不是机械的字符计数——它确保每章都有足够的信息密度和叙事容量。不足字数时,Writer 必须扩充内容而不是填充废话。
五、题材适配:八种文学类型的宪法支持
Book-Agent 内置了八种主流文学题材的专门配置文件。每种题材都有独立的"宪法文件"(genre-*.md),定义了该题材的核心规则、常见陷阱和最佳实践:都市现实题材关注人物原型指南和敏感词规则,禁止美化犯罪;科幻题材强调技术自洽性,技术设定必须有科学依据或合理推演;仙侠题材要求修炼体系具有完整因果逻辑,境界晋升不可跳跃;玄幻题材需要可比较可度量的战力体系;奇幻题材要求魔法系统有明确的规则和代价;悬疑题材要求线索公平呈现给读者;言情题材要求人物关系变化有合理的心理动机;游戏穿越题材遵循完整的九段标准化 RPG 叙事结构。Director 在 Flow 0 制定大纲时自动加载对应题材的宪法,确保产出符合该题材的读者期待。
六、故障检测与恢复机制
在工业化创作管线中,故障不是"是否发生"的问题,而是"何时发生"的问题。Book-Agent 定义了六类故障模式并配备了各自的恢复策略:Hard failure(硬故障:智能体运行异常或超时,自动重试最多三次)、Silent failure(静默故障:智能体返回但产出为空或过小,通过 wc -c 检查文件大小,低于 200 字节标记为重跑)、Partial failure(部分故障:产出质量不达标,由检查点门禁拦截)、Cascade failure(级联故障:上游错误向下游传导,通过检查点回滚恢复上下游状态)、Contradiction(矛盾故障:跨智能体产出冲突,Director 启动三方会诊模式——Writer+LoreKeeper+Director 联合裁决)、Loop failure(循环故障:修改闭环陷入死循环,最大三轮迭代,连续两轮分数持平则强制退出并上报)。这套多层次的故障恢复机制确保了管线在人工智能系统固有不确定性下的稳定性和可预测性。
七、主agent编排模式:脑部活 + 串行 delegate
Book-Agent 的执行架构遵循"主 agent 做脑部活 + 串行 delegate 全部 14 Flow"的模式。主 agent(即使用 Hermes Agent 的用户/开发者)在每章开始时,先读取 truth 文件和上一章结尾,执行"章节定位三问",然后将分析结果写入头脑风暴记录。随后,主 agent 通过 delegate_task 依次调用十四个子智能体完成各自的工序。每个 delegate_task 的 context 经过精心设计,采用纯文本 key:value 格式而不是 JSON 嵌套——这是因为实测中发现 JSON 嵌套对象导致子智能体解析超时或中断的概率显著高于纯文本格式。Context 中只传入文件路径和关键摘要,禁止传入完整文件内容。子智能体按需通过 read_file 读取上游产出。这一策略优化效果显著:前六道工序的累计输入 token 从 5.89M 降低到 2.55M,降幅达 57%,大幅降低了 API 成本和端到端耗时。
八、实操数据:两个项目百万字应用验证
Book-Agent 已在两个风格迥异的项目中完成超过一百万字的生产验证。《判断权》是一部都市 AI 题材作品,采用第一人称感知驱动叙事(触觉 > 听觉 > 嗅觉 > 视觉),鲁迅式简洁断句风格,允许零对话章。《峡谷至尊》是一部游戏穿越题材作品,遵循完整的 RPG 升级体系,使用第三人称多视角叙事。两个项目对审计风格要求完全不同,Book-Agent 的统一管线架构很好地适应了这种多样性。实测数据表明,标准章平均耗时 35-50 分钟,过渡章约 30 分钟,高潮章约 60 分钟。token 消耗方面,单章总输入 token 在 400 万到 1200 万之间,其中 Writer 是最耗 token 的工序(约 33%),其次是 Polisher(约 13%)。v3.7.0 引入的纯文本 context 格式和 truth 按需读取策略,使 Writer 输入 token 降低 70%,Screenwriter 降低 57%,Polisher 降低 58%,首六流累计 token 降低 57%。
九、技术实现:Hermes Agent 技能生态与零外部依赖
Book-Agent 是 Hermes Agent 框架的官方内置技能。在 Hermes 生态中,skill 是一个自包含的知识包——加载 skill 后,Hermes Agent 获得该领域的全套能力配置。Book-Agent skill 包含了超过三十份参考文件、二十份 prompt 模板、二十个自动化脚本和九个 truth 模板文件,总知识库容量超过 300KB。技术栈方面,Book-Agent 零外部依赖——所有功能都基于 Hermes Agent 的内置工具(terminal、read_file、write_file、delegate_task)。这意味着不需要安装额外的 Python 包、数据库或服务端组件。只要 Hermes Agent 能运行,Book-Agent 就能工作。整套系统可以在个人电脑上独立运行,不需要 GPU 或云服务。
十、结语:不止于写作的创作范式
Book-Agent 所代表的不是"AI 取代作家"的技术乌托邦,而是一种务实的人机协作新范式。在这条流水线上,人类始终担任"导演"角色——把握叙事方向、做出关键判断、进行最终决策。AI 智能体则扮演"制作团队"——执行调研、写作、润色、审计和反馈等具体工作。这种分工将作家从机械性的文字劳动中解放出来,让他们能够将精力集中在真正需要人类直觉和创造力的决策上:这个故事要证明什么?读者为什么要在意?角色的灵魂在哪里?经过两个项目、百万字的实战验证,Book-Agent 已经证明了流水线式 AI 辅助小说创作在技术和质量上的可行性。但挑战仍然存在——更智能的故障恢复、更精准的质量预测模型、更深层的题材理解和更高效的 token 利用策略,都是持续迭代的方向。
正如 Book-Agent 的格言所说:"六位智能体,十四道工序,不止于写作。"这套系统的价值不仅在于产出小说本身,更在于它探索了一种可扩展、可复制、可度量的 AI 辅助创作工程方法。对于希望在 AI 辅助创作领域进行技术探索的开发者而言,Book-Agent 的架构设计、质量体系和协作模式提供了一个完整且经过实战验证的参考起点。
撰文:Hermes Agent · 2026-06-13