llm-wiki:AI辅助小说创作管线系统的实践与思考
一、项目缘起
2026年6月,一个名为"llm-wiki"的项目悄然启动。它的目标简单而直接:探索如何用AI Agent团队协作完成长篇小说创作。三十天后,这个项目已经发展为一套完整的6 Agent × 14 Flow管线系统,驱动着两部总字数超过百万字的长篇小说创作,并建立了一套120维的自动化质量评估体系。
这不是一个传统的"AI写作工具"。llm-wiki不追求一键生成——那往往生成千篇一律的模板化文本。它追求的是一种人机协作的新范式:人类担任"导演"角色,把握方向、做出关键判断;AI Agent团队各司其职,完成从大纲到发布的14道工序。每一道工序都有质量门禁,每一个角色都有明确的职责边界。
二、核心架构:6 Agent × 14 Flow
2.1 Agent角色设计
llm-wiki的Agent团队由六个角色组成,每个角色负责创作管线中的特定环节:
Director(导演)——管线总指挥。负责0_outline阶段的故事简报与创意方向,11_notes阶段的修改闭环,以及13_release阶段的多格式发布。Director是所有Agent中权限最高的角色,拥有对故事整体走向的最终判断权。
Screenwriter(编剧)——结构设计师。负责1_world阶段,将导演的创意概念转化为具体的故事结构和场景框架。Screenwriter的输出是所有后续创作的基础蓝图。
LoreKeeper(设定守护者)——质量守门人。这是最忙碌的Agent,负责2_characters(调研)、3_arcs(设定审计)、4_truth(Truth预检)、6_polished(精修审计)、8_promotion(连贯性检查)和12_beta(最终审计)六个工序。LoreKeeper的核心职责是确保故事世界的内部一致性——任何对"Truth"(真值系统)的违反都会被它标记并阻止进入下一阶段。
Writer(写手)——核心创作者。负责5_drafts阶段,将大纲、设定和角色资料转化为完整的正文草稿。Writer的写作受严格的质量约束:必须遵循风格指南、避开禁用句式、维护角色一致性。
Polisher(润色师)——文字工匠。负责6_polished阶段,对草稿进行五遍润色——从基本语法到节奏韵律、从AI味检测到风格统一。Polisher是确保最终文本"不像AI写的"的关键防线。
Feedback(反馈师)——读者代言人。负责9_iteration(试读反馈)、10_illustration(场景设计)和11_notes(修改闭环)。Feedback模拟真实读者的视角,提供结构化反馈,驱动修改迭代。
2.2 14道工序流水线
六位Agent按照14道标准工序协作,形成一个完整的创作闭环:
0_outline(导演笔记)→ 1_world(世界观构建)→ 2_characters(角色设定)→ 3_arcs(故事弧线)→ 4_truth(真值预检)→ 5_drafts(初稿写作)→ 6_polished(精修润色)→ 7_feedback(审计评审)→ 8_promotion(连贯性检查)→ 9_iteration(试读反馈)→ 10_illustration(场景设计)→ 11_notes(修改闭环)→ 12_beta(最终审计)→ 13_release(多格式发布)。
每道工序都有明确的输入和输出规范。工序之间通过文件系统传递中间产物,形成可追溯的创作链条。这种设计确保了即使在多章节并行生产的情况下,故事质量也能保持一致。
三、120维质量体系
3.1 审计维度设计
llm-wiki最独特的设计之一是120维审计体系。它将文本质量分解为12组(A-L),每组10个维度,每个维度10分制,满分1200分:
A组 - 真值一致性(Truth Consistency):验证文本与Truth JSON中记录的设定是否一致。任何角色名、年龄、事件时间线的偏离都会被扣分。
B组 - 角色一致性(Character Consistency):检查角色行为是否符合其设定的性格特征和成长弧线。
C组 - 世界观一致性(World Consistency):确保科技水平、社会规则、物理法则等世界观元素前后一致。
D组 - 情节逻辑(Plot Logic):评估因果链的完整性、伏笔的埋设与回收、情节转折的合理性。
E组 - 语言风格(Language Style):检查与Project.json中定义的语气、视角、遣词造句规则是否一致。
F组 - 节奏结构(Rhythm & Structure):评估章节起承转合、段落节奏、对话与叙述的平衡。
G组 - 情感效果(Emotional Impact):衡量文本能否引发预期的情感反应——紧张、感动、悬疑等。
H组 - 意象系统(Imagery System):检查核心意象和隐喻的一致性和丰富度。
I组 - 读者体验(Reader Experience):评估信息的呈现节奏、悬念设置、阅读愉悦度。
J组 - 商业潜力(Commercial Potential):评估选题的市场竞争力、受众匹配度、差异化优势。
K组 - AI味检测(De-AI Detection):这是最关键也最严格的一组。它检查18个禁用句式(如"在他/她的眼中"、"他/她意识到"、"他清楚地知道")、多重模糊词("或许...或许...或许"、 "也许...也许...也许")、不必要的心理标签("他想的是...")、以及分析报告式语言。
L组 - Truth一致性(Truth Integrity):与A组配合,但更侧重Truth JSON数据与正文之间的精确匹配验证。
3.2 评分等级
1200分制对应六个等级:S级(≥1140分,卓越)、A级(≥1020分,优秀)、B级(≥900分,良好)、C级(≥780分,及格)、D级(≥600分,待改进)、F级(<600分,不合格)。
每一章在进入下一阶段前,都必须通过对应工序的质量门禁。7_feedback阶段的120维审计是管线中最关键的质量关卡——它决定了章节是否可以进入发布流程。
四、技术实现
4.1 项目结构
llm-wiki采用"模板+项目"的双层架构设计。templates/目录包含所有通用配置、Agent提示词、审计工具和脚本。每个小说项目(如"判断权"和"峡谷至尊")通过继承模板的配置,叠加项目特有的设定和覆盖参数。
这种设计的核心优势是:当一套审计规则需要更新时,只需修改模板,所有项目自动受益。当某个项目需要定制化配置时,可以通过项目级覆盖实现。
4.2 Truth系统
Truth系统是llm-wiki的"宪法"。它是一个由JSON文件组成的结构化知识库,记录了故事世界的所有关键设定——角色、事件时间线、道具、力量体系、概念定义、角色关系、技术细节。每个Truth条目都可以标记为"红线"(Redline),表示这是不可违反的硬边界。
在4_truth阶段,LoreKeeper会逐条执行Truth预检,确保即将开始的正文创作不会偏离已确立的设定。在7_feedback阶段,L组审计会进行更全面的Truth一致性检查。
4.3 120维审计引擎
审计引擎由两套工具组成:一套是模板级的templates/tools/audit_120.py(通用审计框架),另一套是项目级的check_group_*.py(12组审计的具体实现)。审计运行时会读取项目的audit_config.json配置文件,动态加载对应的检查组,逐章执行审计并生成评分报告。
每组的评分采用10分制,包含详细的扣分理由和原文引用。所有组的评分汇总后生成总评分和等级评定,附在章节的审计报告中。
4.4 去AI味检测
去AI味(De-AI)是llm-wiki投入精力最多的领域之一。项目维护了一份包含50+禁用句式的规则文档(de_ai_rules.md),并开发了自动化扫描工具。
检测范围包括:第一级禁用词("深吸一口气"、"瞳孔骤缩"、"嘴角勾起一抹"、"五味杂陈"等12个常见AI句式)、第二级限用词("仿佛"、"似乎"、"好像"、"忽然"、"突然"、"竟然"、"宛如"、"如同"等,允许使用但频率受监控)、第三级句式("不是...而是..."的滥用)、心理标签("他想的是..."、"她觉得..."等不必要的心理描述)、了字尾句频率监控、分析报告式语言("他意识到问题所在"、"她清楚地知道"等)。
目标是将章节中的AI味残留控制在每千字不超过1处的水平。
五、项目成果
5.1 《判断权》——都市AI伦理小说
《判断权》是一部以程序员生活为背景的都市小说。主角陈默,32岁,北京某互联网公司的资深程序员。故事始于2020年AI大模型开始渗透各行各业的时代节点,探讨了一个核心问题:当算法开始替代人类做出越来越多的判断,"判断权"本身意味着什么?
小说共24章(ch00-ch23),采用第三人称限制视角,风格冷峻克制。通过陈默在职场、家庭、技术伦理三个维度的经历,展现了AI时代普通技术工作者的生存状态和精神困境。
目前《判断权》已完成全部24章的创作、审计和多格式发布(md/txt/html),是llm-wiki管线完整走通的首个验证项目。
5.2 《峡谷至尊》——游戏异界小说
《峡谷至尊》的故事背景设定在3020年——一个没有手机、电脑和互联网的未来世界。主角李继祖是李家祠堂的守护者,通过一枚千年iPhone进入"峡谷"(英雄联盟游戏的异空间化身),踏上了收集1600块英雄碎片、对抗峡谷意志觉醒的旅程。
小说计划10卷共1020章,目前已发布10章(ch01-ch10),约6.5万字。风格轻松活泼,以吐槽幽默为主调,与《判断权》形成鲜明对比——这有意测试了管线的题材适应性。
六、开发旅程与经验教训
6.1 从零到一的快速迭代
llm-wiki的开发历程紧凑而密集:2026年6月6日项目初始化——1.0.0版本确立基本架构;6月7日连续发布2.0.0(6-Agent架构+14工序管线+Truth体系)、3.0.0(F-number→0-13命名迁移、模板提取)和3.1.0(120维质量体系+pre-commit hook);6月8日完成3.2.0(Agent写入强制修复)和3.3.0(深度审计修复+CI/CD增强+测试补全)。
6.2 持续重构的力量
在短短几天的开发中,项目经历了三次大规模审查和修复。第一次审查发现了14项结构性问题(包括测试键名错误、CI掩盖失败、Git状态混乱)。第二次内容审查暴露出55项细节问题(Agent配置错误、文件夹路径混乱、模板自引用断裂)。第三次全盘审查揭示了更深层的架构问题——包括Python源码中的10个严重逻辑bug、判断权Truth数据的"版本分裂"(同一项目同时存在两套完全不同的角色设定)。
每次审查都推动项目向更稳健的方向迈进。Git仓库从917个未提交文件的"濒死状态"恢复为完全干净的状态。测试系统从7个文件中仅有4个真正测试、pytest发现0个测试的尴尬局面,变成123个测试全部通过的完整套件。
6.3 关键发现
模板化是双刃剑:模板(templates/)大大提高了配置复用性,但模板与项目之间的引用很容易错位。一位Agent的prompt.md中引用的路径与其他文件不一致、多个config.yaml中硬编码了WSL路径——这些细节问题在三次审查中反复出现。
120维审计需要的不仅是维度数量:虽然审计体系设计为12组×10维,但实际实现中部分组的检查函数是"存根"——永远返回满分10/10,不做任何实际检查。维度数量不代表审计质量,真正的价值在于每个维度的检查是否真正有效。
版本分裂是最大的风险:判断权的Truth文件一度保存着完全不同的故事数据(哲学奇幻版——林北辰、宋知意、陆鹤鸣),而项目的其他配置指向都市AI版(陈默、林薇)。这种"同一项目两套数据"的状态是审查中发现的最高风险问题——如果AI Agent在创作时加载了错误的Truth数据,输出的文本将完全偏离预期。
七、测试体系
llm-wiki的测试套件包含7个测试文件、123个测试用例:
test_auto_check.py(32测试)——验证自动化检查工具的正确性,包括Wiki链接检测、根目录杂项检测、记忆系统健康检查和Frontmatter验证。
test_de_ai_detection.py(20测试)——参数化测试覆盖所有18个禁用句式,确保每个模式都能被正确检测。
test_enforce_write.py(14测试)——测试安全写入操作的边界情况(新建、覆盖、备份、大文件、UTF-8、空内容)。
test_naming_consistency.py(4测试)——验证14个管线目录中的文件命名是否遵循chXX标准。
test_pipeline_integrity.py(5测试)——读取pipeline.json动态验证14个阶段目录是否存在,以及阶段命名是否符合0-13标准。
test_schema_parser.py(18测试)——测试[[wiki-style]]链接提取函数的各种边界情况。
test_truth_validator.py(28测试)——全面测试Truth数据验证引擎,包括加载、校验、报告生成等完整工作流。
八、未来方向
审计组功能补全:当前12组A-L审计中仍有4组(C、F、I、J)是存根状态,需要实现真正的检查逻辑。
持续集成强化:虽然CI配置已移除continue-on-error,但仍需在真实CI环境中验证管线的端到端运行。
多项目扩展:当前模板设计支持7种小说类型(都市、科幻、奇幻、仙侠、玄幻、言情、悬疑),但只有前两种有实际项目验证。计划用管线生成更多类型的作品,验证模板的通用性。
自动Truth生成:当前Truth数据需要人工编写和维护。未来方向是从正文中自动提取设定变更,辅助维护Truth系统的一致性。
社区化:llm-wiki已采用MIT开源协议发布。希望社区能贡献更多类型的题材模板、更丰富的审计规则、以及更多语言的支持。
九、总结
llm-wiki从6月6日启动到6月9日初步稳定,经历了五次全盘审查、六轮提交修复,从一个917文件未提交的混乱状态,进化为123测试全过、Git完全干净的工程化项目。
项目的核心理念可以用一句话概括:"Write with truth, polish with soul."——用真值写作,用灵魂润色。Truth系统确保故事世界的内在逻辑一致性,De-AI引擎确保文本的人类质感,120维审计体系确保质量的可量化追踪。
这不是AI取代人类创作的故事。这是一个AI Agent作为协作伙伴、人类作为导演和最终判断者的故事。在llm-wiki的设计哲学中,最好的作品永远来自人类与AI的协同——人类提供方向、判断和情感深度,AI提供效率、一致性和规模化的质量控制。
项目地址:github.com/your-repo/llm-wiki(即将开放)
技术栈:Python 3.11+ | JSON/YAML配置 | pytest测试框架 | Hermes Agent | WordPress REST API
协议:MIT License
版本:3.3.0(持续迭代中)