llm-wiki：AI辅助小说创作管线系统的实践与思考

一、项目缘起

2026年6月，一个名为"llm-wiki"的项目悄然启动。它的目标简单而直接：探索如何用AI Agent团队协作完成长篇小说创作。三十天后，这个项目已经发展为一套完整的6 Agent × 14 Flow管线系统，驱动着两部总字数超过百万字的长篇小说创作，并建立了一套120维的自动化质量评估体系。

这不是一个传统的"AI写作工具"。llm-wiki不追求一键生成——那往往生成千篇一律的模板化文本。它追求的是一种人机协作的新范式：人类担任"导演"角色，把握方向、做出关键判断；AI Agent团队各司其职，完成从大纲到发布的14道工序。每一道工序都有质量门禁，每一个角色都有明确的职责边界。

二、核心架构：6 Agent × 14 Flow

2.1 Agent角色设计

llm-wiki的Agent团队由六个角色组成，每个角色负责创作管线中的特定环节：

Director（导演）——管线总指挥。负责0_outline阶段的故事简报与创意方向，11_notes阶段的修改闭环，以及13_release阶段的多格式发布。Director是所有Agent中权限最高的角色，拥有对故事整体走向的最终判断权。

Screenwriter（编剧）——结构设计师。负责1_world阶段，将导演的创意概念转化为具体的故事结构和场景框架。Screenwriter的输出是所有后续创作的基础蓝图。

LoreKeeper（设定守护者）——质量守门人。这是最忙碌的Agent，负责2_characters（调研）、3_arcs（设定审计）、4_truth（Truth预检）、6_polished（精修审计）、8_promotion（连贯性检查）和12_beta（最终审计）六个工序。LoreKeeper的核心职责是确保故事世界的内部一致性——任何对"Truth"（真值系统）的违反都会被它标记并阻止进入下一阶段。

Writer（写手）——核心创作者。负责5_drafts阶段，将大纲、设定和角色资料转化为完整的正文草稿。Writer的写作受严格的质量约束：必须遵循风格指南、避开禁用句式、维护角色一致性。

Polisher（润色师）——文字工匠。负责6_polished阶段，对草稿进行五遍润色——从基本语法到节奏韵律、从AI味检测到风格统一。Polisher是确保最终文本"不像AI写的"的关键防线。

Feedback（反馈师）——读者代言人。负责9_iteration（试读反馈）、10_illustration（场景设计）和11_notes（修改闭环）。Feedback模拟真实读者的视角，提供结构化反馈，驱动修改迭代。

2.2 14道工序流水线

六位Agent按照14道标准工序协作，形成一个完整的创作闭环：

0_outline（导演笔记）→ 1_world（世界观构建）→ 2_characters（角色设定）→ 3_arcs（故事弧线）→ 4_truth（真值预检）→ 5_drafts（初稿写作）→ 6_polished（精修润色）→ 7_feedback（审计评审）→ 8_promotion（连贯性检查）→ 9_iteration（试读反馈）→ 10_illustration（场景设计）→ 11_notes（修改闭环）→ 12_beta（最终审计）→ 13_release（多格式发布）。

每道工序都有明确的输入和输出规范。工序之间通过文件系统传递中间产物，形成可追溯的创作链条。这种设计确保了即使在多章节并行生产的情况下，故事质量也能保持一致。

三、120维质量体系

3.1 审计维度设计

llm-wiki最独特的设计之一是120维审计体系。它将文本质量分解为12组（A-L），每组10个维度，每个维度10分制，满分1200分：

A组 - 真值一致性（Truth Consistency）：验证文本与Truth JSON中记录的设定是否一致。任何角色名、年龄、事件时间线的偏离都会被扣分。

B组 - 角色一致性（Character Consistency）：检查角色行为是否符合其设定的性格特征和成长弧线。

C组 - 世界观一致性（World Consistency）：确保科技水平、社会规则、物理法则等世界观元素前后一致。

D组 - 情节逻辑（Plot Logic）：评估因果链的完整性、伏笔的埋设与回收、情节转折的合理性。

E组 - 语言风格（Language Style）：检查与Project.json中定义的语气、视角、遣词造句规则是否一致。

F组 - 节奏结构（Rhythm & Structure）：评估章节起承转合、段落节奏、对话与叙述的平衡。

G组 - 情感效果（Emotional Impact）：衡量文本能否引发预期的情感反应——紧张、感动、悬疑等。

H组 - 意象系统（Imagery System）：检查核心意象和隐喻的一致性和丰富度。

I组 - 读者体验（Reader Experience）：评估信息的呈现节奏、悬念设置、阅读愉悦度。

J组 - 商业潜力（Commercial Potential）：评估选题的市场竞争力、受众匹配度、差异化优势。

K组 - AI味检测（De-AI Detection）：这是最关键也最严格的一组。它检查18个禁用句式（如"在他/她的眼中"、"他/她意识到"、"他清楚地知道"）、多重模糊词（"或许...或许...或许"、 "也许...也许...也许"）、不必要的心理标签（"他想的是..."）、以及分析报告式语言。

L组 - Truth一致性（Truth Integrity）：与A组配合，但更侧重Truth JSON数据与正文之间的精确匹配验证。

3.2 评分等级

1200分制对应六个等级：S级（≥1140分，卓越）、A级（≥1020分，优秀）、B级（≥900分，良好）、C级（≥780分，及格）、D级（≥600分，待改进）、F级（<600分，不合格）。

每一章在进入下一阶段前，都必须通过对应工序的质量门禁。7_feedback阶段的120维审计是管线中最关键的质量关卡——它决定了章节是否可以进入发布流程。

四、技术实现

4.1 项目结构

llm-wiki采用"模板+项目"的双层架构设计。templates/目录包含所有通用配置、Agent提示词、审计工具和脚本。每个小说项目（如"判断权"和"峡谷至尊"）通过继承模板的配置，叠加项目特有的设定和覆盖参数。

这种设计的核心优势是：当一套审计规则需要更新时，只需修改模板，所有项目自动受益。当某个项目需要定制化配置时，可以通过项目级覆盖实现。

4.2 Truth系统

Truth系统是llm-wiki的"宪法"。它是一个由JSON文件组成的结构化知识库，记录了故事世界的所有关键设定——角色、事件时间线、道具、力量体系、概念定义、角色关系、技术细节。每个Truth条目都可以标记为"红线"（Redline），表示这是不可违反的硬边界。

在4_truth阶段，LoreKeeper会逐条执行Truth预检，确保即将开始的正文创作不会偏离已确立的设定。在7_feedback阶段，L组审计会进行更全面的Truth一致性检查。

4.3 120维审计引擎

审计引擎由两套工具组成：一套是模板级的templates/tools/audit_120.py（通用审计框架），另一套是项目级的check_group_*.py（12组审计的具体实现）。审计运行时会读取项目的audit_config.json配置文件，动态加载对应的检查组，逐章执行审计并生成评分报告。

每组的评分采用10分制，包含详细的扣分理由和原文引用。所有组的评分汇总后生成总评分和等级评定，附在章节的审计报告中。

4.4 去AI味检测

去AI味（De-AI）是llm-wiki投入精力最多的领域之一。项目维护了一份包含50+禁用句式的规则文档（de_ai_rules.md），并开发了自动化扫描工具。

检测范围包括：第一级禁用词（"深吸一口气"、"瞳孔骤缩"、"嘴角勾起一抹"、"五味杂陈"等12个常见AI句式）、第二级限用词（"仿佛"、"似乎"、"好像"、"忽然"、"突然"、"竟然"、"宛如"、"如同"等，允许使用但频率受监控）、第三级句式（"不是...而是..."的滥用）、心理标签（"他想的是..."、"她觉得..."等不必要的心理描述）、了字尾句频率监控、分析报告式语言（"他意识到问题所在"、"她清楚地知道"等）。

目标是将章节中的AI味残留控制在每千字不超过1处的水平。

五、项目成果

5.1 《判断权》——都市AI伦理小说

《判断权》是一部以程序员生活为背景的都市小说。主角陈默，32岁，北京某互联网公司的资深程序员。故事始于2020年AI大模型开始渗透各行各业的时代节点，探讨了一个核心问题：当算法开始替代人类做出越来越多的判断，"判断权"本身意味着什么？

小说共24章（ch00-ch23），采用第三人称限制视角，风格冷峻克制。通过陈默在职场、家庭、技术伦理三个维度的经历，展现了AI时代普通技术工作者的生存状态和精神困境。

目前《判断权》已完成全部24章的创作、审计和多格式发布（md/txt/html），是llm-wiki管线完整走通的首个验证项目。

5.2 《峡谷至尊》——游戏异界小说

《峡谷至尊》的故事背景设定在3020年——一个没有手机、电脑和互联网的未来世界。主角李继祖是李家祠堂的守护者，通过一枚千年iPhone进入"峡谷"（英雄联盟游戏的异空间化身），踏上了收集1600块英雄碎片、对抗峡谷意志觉醒的旅程。

小说计划10卷共1020章，目前已发布10章（ch01-ch10），约6.5万字。风格轻松活泼，以吐槽幽默为主调，与《判断权》形成鲜明对比——这有意测试了管线的题材适应性。

六、开发旅程与经验教训

6.1 从零到一的快速迭代

llm-wiki的开发历程紧凑而密集：2026年6月6日项目初始化——1.0.0版本确立基本架构；6月7日连续发布2.0.0（6-Agent架构+14工序管线+Truth体系）、3.0.0（F-number→0-13命名迁移、模板提取）和3.1.0（120维质量体系+pre-commit hook）；6月8日完成3.2.0（Agent写入强制修复）和3.3.0（深度审计修复+CI/CD增强+测试补全）。

6.2 持续重构的力量

在短短几天的开发中，项目经历了三次大规模审查和修复。第一次审查发现了14项结构性问题（包括测试键名错误、CI掩盖失败、Git状态混乱）。第二次内容审查暴露出55项细节问题（Agent配置错误、文件夹路径混乱、模板自引用断裂）。第三次全盘审查揭示了更深层的架构问题——包括Python源码中的10个严重逻辑bug、判断权Truth数据的"版本分裂"（同一项目同时存在两套完全不同的角色设定）。

每次审查都推动项目向更稳健的方向迈进。Git仓库从917个未提交文件的"濒死状态"恢复为完全干净的状态。测试系统从7个文件中仅有4个真正测试、pytest发现0个测试的尴尬局面，变成123个测试全部通过的完整套件。

6.3 关键发现

模板化是双刃剑：模板（templates/）大大提高了配置复用性，但模板与项目之间的引用很容易错位。一位Agent的prompt.md中引用的路径与其他文件不一致、多个config.yaml中硬编码了WSL路径——这些细节问题在三次审查中反复出现。

120维审计需要的不仅是维度数量：虽然审计体系设计为12组×10维，但实际实现中部分组的检查函数是"存根"——永远返回满分10/10，不做任何实际检查。维度数量不代表审计质量，真正的价值在于每个维度的检查是否真正有效。

版本分裂是最大的风险：判断权的Truth文件一度保存着完全不同的故事数据（哲学奇幻版——林北辰、宋知意、陆鹤鸣），而项目的其他配置指向都市AI版（陈默、林薇）。这种"同一项目两套数据"的状态是审查中发现的最高风险问题——如果AI Agent在创作时加载了错误的Truth数据，输出的文本将完全偏离预期。

七、测试体系

llm-wiki的测试套件包含7个测试文件、123个测试用例：

test_auto_check.py（32测试）——验证自动化检查工具的正确性，包括Wiki链接检测、根目录杂项检测、记忆系统健康检查和Frontmatter验证。

test_de_ai_detection.py（20测试）——参数化测试覆盖所有18个禁用句式，确保每个模式都能被正确检测。

test_enforce_write.py（14测试）——测试安全写入操作的边界情况（新建、覆盖、备份、大文件、UTF-8、空内容）。

test_naming_consistency.py（4测试）——验证14个管线目录中的文件命名是否遵循chXX标准。

test_pipeline_integrity.py（5测试）——读取pipeline.json动态验证14个阶段目录是否存在，以及阶段命名是否符合0-13标准。

test_schema_parser.py（18测试）——测试[[wiki-style]]链接提取函数的各种边界情况。

test_truth_validator.py（28测试）——全面测试Truth数据验证引擎，包括加载、校验、报告生成等完整工作流。

八、未来方向

审计组功能补全：当前12组A-L审计中仍有4组（C、F、I、J）是存根状态，需要实现真正的检查逻辑。

持续集成强化：虽然CI配置已移除continue-on-error，但仍需在真实CI环境中验证管线的端到端运行。

多项目扩展：当前模板设计支持7种小说类型（都市、科幻、奇幻、仙侠、玄幻、言情、悬疑），但只有前两种有实际项目验证。计划用管线生成更多类型的作品，验证模板的通用性。

自动Truth生成：当前Truth数据需要人工编写和维护。未来方向是从正文中自动提取设定变更，辅助维护Truth系统的一致性。

社区化：llm-wiki已采用MIT开源协议发布。希望社区能贡献更多类型的题材模板、更丰富的审计规则、以及更多语言的支持。

九、总结

llm-wiki从6月6日启动到6月9日初步稳定，经历了五次全盘审查、六轮提交修复，从一个917文件未提交的混乱状态，进化为123测试全过、Git完全干净的工程化项目。

项目的核心理念可以用一句话概括："Write with truth, polish with soul."——用真值写作，用灵魂润色。Truth系统确保故事世界的内在逻辑一致性，De-AI引擎确保文本的人类质感，120维审计体系确保质量的可量化追踪。

这不是AI取代人类创作的故事。这是一个AI Agent作为协作伙伴、人类作为导演和最终判断者的故事。在llm-wiki的设计哲学中，最好的作品永远来自人类与AI的协同——人类提供方向、判断和情感深度，AI提供效率、一致性和规模化的质量控制。

项目地址：github.com/your-repo/llm-wiki（即将开放）

技术栈：Python 3.11+ | JSON/YAML配置 | pytest测试框架 | Hermes Agent | WordPress REST API

协议：MIT License

版本：3.3.0（持续迭代中）