Book-Agent:Hermes Agent 的工业级小说生产 skill——六位智能体 × 十四道工序完整解析

引言:当 Hermes Agent 遇上小说创作

Book-Agent 是 Hermes Agent(由 Nous Research 开发的开源 AI 智能体框架)的一个内置技能(skill)。在 Hermes 生态中,skill 是可加载的知识包——每个 skill 包含完整的配置、prompt、工作流程和参考文件。加载 skill 后,Hermes Agent 获得该领域的全套能力。目前 Hermes 拥有 50+ 技能,覆盖软件开发、数据科学、创意写作、DevOps 等领域。

Book-Agent 就是 Hermes 创意类技能中最复杂的一个。它不是一个独立的应用程序,而是一套定义在 SKILL.md 中的 6 Agent × 14 Flow 管线模板。在 Hermes Agent 的对话界面中,通过 skill_view(name='book-agent') 加载后,Hermes 立刻获得完整的"小说工厂"能力——所有智能体角色、工序流程、质量体系、Truth 数据库全部就绪。这套系统已经在《峡谷至尊》(1020 章超长篇网文)中完整落地。

在AI辅助创作领域,大多数工具停留在"生成文本"层面——给一个提示,产出一段文字。但长篇小说创作是一个极其复杂的系统工程:世界观一致性、角色弧光、情节逻辑、伏笔埋设与回收、节奏控制、文风统一、跨章矛盾检测、AI味去除……任何一个环节出问题,整部作品就会崩塌。传统写作依赖作者一个人记住所有设定,在几万字的短篇中可行,但在百万字甚至千万字的超长篇中几乎不可能——人的记忆是有极限的。一个人可以记住100个设定,但1000个呢?10000个呢?当角色从10个增长到100个,当章节从10章增长到1000章,大脑的"缓存"一定会溢出。

Book-Agent 正是为解决这个问题而生的。它不是一个简单的"AI写作助手",而是一套完整的 6 Agent × 14 Flow 超工业小说生产管线——从大纲到多格式发布,全流程 AI 辅助,零外部依赖。这套系统已经在《峡谷至尊》(1020 章超长篇网文,3020 年游戏穿越·电竞题材)中完整落地,12 章全部通过 14 道工序的严格验证,单章产出 17 个文件约 140KB 的创作档案。本文将详细介绍 Book-Agent 的架构设计、核心机制、质量保障体系,以及从 13 维到 120 维的进化之路。

一、六位智能体的角色与分工

在 Hermes Agent 中,Book-Agent 的核心由六个智能体(Agent)构成,每个智能体有专属的 prompt、flow 定义、配置文件和工作流程,各自负责不同的工序:

1. Director(导演 🎬)

负责工序 0(大纲)、11(修改闭环)、13(发布)。Director 是整条管线的总指挥,制定每章的"导演笔记"——这是管线中最长的元数据文件,通常在 4000-6000 字。导演笔记包含 12 个标准章节:一、章节定位——本章在卷中的位置(如"V01觉醒卷觉醒期中后段")、与前章衔接方式(如"ch10是第一次高潮、ch11是消化沉淀、ch12是主动行动")、情节功能列表(如"行动章、主动探索转折点、iPhone 新功能展示、林小雅首次出场")。二、调性指令——一句话说清楚本章的情感基调(如"战斗结束后的寂静,比战斗本身更重")加具象解释。三、色彩光线设计——每个场景的主色调、光线强度、情感关联的对照表。四、情绪曲线——用 ASCII 图画出情感走向波形,配合分段表说明每段的情绪和节奏控制方式(缓/中/紧/缓收)。五、意象系统——核心意象表(意象名称、象征意义、具体使用方式、出现次数要求),以及意象升级路径(从"被动映照"到"被识别"到"主动分析"的连续递进)。六、角色聚焦——每个出场角色的本章状态、身心递变线、关键行动列表、红线。七、伏笔管理——前章伏笔的兑现(全额/半额/未兑现)和新伏笔的埋入(目标章节标注)。八、写作禁令——绝对不能写的项和需要克制的项的详细说明。九、字数分配——每段的汉字数预估和总目标。十、Truth 引用——本章需要引用的 Truth 条目及引用方式。十一、衔接检查清单——章节间的连续性逐项检查。十二、排版与格式指令——闪回段落的处理方式、对话节奏要求、感官描写优先级等。在实际项目中,导演笔记的质量直接决定了整章的质量——导演笔记写得好,后续的 Writer 和 Polisher 几乎不会出大问题。反之,如果导演笔记模糊或矛盾,后续所有工序都会受影响。 导演笔记的另一个关键功能是定义章节"禁区"——第12章明确了6条绝对不能写(不写战斗、不让林小雅发现峡谷、不给"她"新台词动作、不写系统弹窗UI、不写升级等级概念、不让老陈出现)和5条需要克制的内容(林小雅对话不超过1500字、iPhone探索不是说明书、解谜过程不直白、内心独白不超过12%)。这些禁令来自前章经验——每发现一个问题就新增一条禁令。

2. Screenwriter(编剧 🎭)

负责工序 1(世界构建)。Screenwriter 将导演笔记转化为具体的剧本结构。它的产出包括:场景表(每个场景的地点、时间、主要角色、核心动作、场景目标、局限)、世界观对标检查表(已有体系的深化使用情况、新引入的世界观元素及其设计意图、与已存在设定的冲突检查结果)、角色关系动态分析、章节弧线设计。Screenwriter 做的核心判定是:本章是否需要新建世界观体系?在《峡谷至尊》第 12 章中,新概念"次通道"被判定为对已有"峡谷多维性"设定的自然扩展——不需要新建体系。这个判定避免了"每章一个新设定"的设定膨胀问题。每章结束时,Screenwriter 输出"变与不变"对照表——明确哪些世界观元素在本章中发生了变化、哪些维持不变——为后续的连贯性检查提供基准。

3. Lore Keeper(设定守护者 📚)

负责工序 2、3、4、7、8、12——共六道工序,是管线中任务最重的智能体。它的职责贯穿整个创作流水线:角色调研(分析每个出场角色的内心状态、性格特征在本章中的呈现方式、关键决策点、与 Truth 角色档案的一致性检查);设定弧线设计(主线弧推进的阶段性分析、伏笔网络的状态追踪——哪些在推进、哪些在等待回收、本章新埋了哪些、每伏笔标注目标回收章节编号);Truth 预检(11 项预检清单全部通过才能进入写作——T1 角色一致性、T2 世界设定一致性、T3 情节逻辑、T4 前章连续性、T5 新概念引入合规性、T6"她"的一致性、T7 林小雅红线、T8 AI 味检测、T9 Truth 引用完整性、T10 写作禁令合规、T11 跨章伏笔对齐);120 维审计(12 组 × 10 维 × 10 分,每组有完整的评分标准和具体评语);连贯性检查(跨 5 章检查道具状态连续性、角色关系一致性、碎片进度合理性);终审(G4 门禁判定)。Lore Keeper 是小说的数据库管理员和首席质检员——它的话就是最终裁定。

4. Writer(主笔 ✍️)

负责工序 5(正文写作),管线的核心产出者。Writer 基于前面四道工序的成果——导演笔记确定"写什么"、剧本结构确定"怎么写"、角色调研确定"谁在写"、Truth 预检确定"什么不能写"——产出每章 6000-8500 汉字的正文。写作风格由项目配置的 writing_style 字段决定。以《峡谷至尊》为例:第三人称限制视角(读者知道的不能比主角多,不进入其他角色的内心)、短句节奏为主(不超过 40 字的长句,用破折号和逗号控制节奏)、身体感知优先于情感直述(不写"他感到恐惧",写"他的手指不自觉地收紧了";不写"他很困惑",写"这个问题不适合用嘴问——写在纸上")、自嘲式内心独白("算了。这个问题写在'不知道'那一栏里")。不同题材有不同的风格配置——悬疑节奏更快、句式更短,言情感官描写比例更高。

5. Polisher(润色师 ✨)

负责工序 6(精修润色)。Polisher 在初稿基础上做精细打磨:去除 AI 味词汇("仿佛""似乎""某种""一股""一种"等 19 个禁用词,零容忍)、优化句式节奏(打破 AI 偏好的中等均长句,制造长短交替)、增强感官描写(补全五感中缺失的维度)、检查禁用句式("不是X是Y"结构、"命运的齿轮开始转动"、心中涌起、原来如此)。Polisher 的最低原则:精修润色不砍量,汉字数波动应小于 5%。这个原则来自一个教训——曾错误地将"精修"理解为"精简",导致第 12 章精修版从 6144 汉字砍到 4671 字(-24%),发布版仅剩 2564 字(-58%)。精修状态报告会记录每次修改的类别和数量——包括 AI 味词汇替换数量、节奏优化数量、感官增强数量、逻辑清晰化数量、去冗余数量。

6. Feedback(试读师 💬)

负责工序 9 和 10(试读反馈 + 场景设计)。Feedback 的设定是一个 25 岁的电竞玩家,每周打 10 局排位。试读报告不像审计那样结构化——而是像跟朋友吐槽一本书。报告包含六个部分:最喜欢(引用原文并说明原因——"这段我读了两遍。不是因为文笔好——是因为太真实了")、最无聊(想跳过的段落及原因)、如果不确定(边缘情况的处理建议)、角色感觉(对每个角色的真实感受——"这一章的李继祖让我觉得他越来越像他自己了")、如果只能改一个地方(最重要的单个修改建议)、现场笔记(随手记录的想法和金句片段)。"如果只能改一个地方"是整条管线中最有价值的反馈——因为长篇的核心问题往往不是很多小问题,而是一个大问题。在第 12 章中这个建议是"调谐测试的解谜部分可以再精简一些",直接命中审计发现的 D 组节奏问题。

二、十四道工序的完整路径

加载 Book-Agent skill 后,Hermes Agent 自身扮演全部六个智能体角色,按序执行每章的 14 道工序,不可跳过。分四个阶段:

规划阶段(工序 0-4):0_outline(导演笔记)→ 1_world(剧本结构)→ 2_characters(角色调研)+ 3_arcs(设定弧线)+ 4_truth(Truth 预检)。后三道可并行执行。规划阶段不写正文——只做"能不能写"的确认。在长篇创作中,没有规划直接写作就像没有图纸盖房子。

创作阶段(工序 5-6):5_drafts(正文初稿 6000-8500 汉字)→ 6_polished(精修润色,不做压缩)。创作阶段消耗的汉字数占整章总产出的 90% 以上。

验证阶段(工序 7-10):7_feedback(120 维审计)→ 8_promotion(连贯性检查)→ 9_iteration(试读反馈)→ 10_illustration(场景设计)。第 12 章验证发现三个问题:调谐测试段认知负荷偏高(D 组 75 分)、眉心金纹缺乏铺垫(试读反馈)、找门过程可精简(试读反馈)。这些问题全记录在 11_notes。

发布阶段(工序 11-13):11_notes(修改闭环)→ 12_beta(终审判定)→ 13_release(三格式:.md 排版版 + .txt 纯文本 + .html 带 CSS 支持暗色模式)。整章 17 个文件约 140KB。整章总耗时约 50-80 次工具调用,其中正文写作为消耗大头。

三、Truth 系统:九份 JSON 文件定义的小说世界

长篇小说最常崩坏的原因是"吃设定"——作者忘记了自己写过什么,导致前后矛盾。Book-Agent 用 Truth 系统从根本上解决这个问题。九份 JSON 文件构成小说世界观数据库,六位智能体共享同一数据库,永远不会出现"一个智能体认为角色 25 岁、另一个认为 26 岁"的矛盾。这从根本上解决了长篇创作中最头疼的问题:多个智能体同时工作时,如何保证对同一角色、同一道具、同一世界观的认知一致。答案就是共享同一个Truth数据库——所有智能体在写作前加载Truth数据,写作中引用Truth数据,写作后验证Truth数据。

truth_characters.json:全部角色的完整档案。以主角李继祖为例:年龄 25 岁、INTJ 性格、本命英雄杰斯、核心矛盾"完成家族使命 vs 个人自由"、完整的 10 级成长轨迹(初唤者 0 碎片→唤师 15→唤将 50→唤王 120→唤圣 200→唤神 350→唤主 500→唤源 700→唤道 900→唤极 1600)、与书中每个角色的关系动态(包含关系类型、动态描述、关系演变阶段)。如果 Writer 想写李继祖突然变得外向健谈——Truth 文件"性格:[理性、克制、自嘲、孤独、渴望突破]"会阻止它。

truth_world.json:3020 年的完整世界观。五个历史纪元:数字纪元(2000-2100,互联网时代)、大断联纪元(2100-2500,量子病毒摧毁全球网络)、重建纪元(2500-2800,家族制度复兴)、融合纪元(2800-3020,科技与传统融合)、觉醒纪元(3020年-,峡谷与现实边界模糊)。技术红线明确:只有生物荧光苔藓、磁悬浮农机、脑波通讯器、星稻被允许——手机(除圣物 iPhone)、电脑、互联网、数字娱乐是永久禁区。日常生活细节也被记录——每天 6 点起床、社区晨练、星稻粥加腌菜早餐、每周三赶集。

truth_plot.json:10 卷 × 1020 章剧情大纲。每卷有名称(如 V01"觉醒"、V02"深渊")、章节范围(001-100)、主角等级区间(初唤者→唤师)、碎片范围(0→15)、核心弧线(从被动守护到主动探索)、高潮事件(第一场大型战斗——峡谷试炼场)、关键转折点(每个转折点标注触发章节号、事件描述、影响力说明)、BOSS 设计(三阶段机制、掉落物)。从第 1 章手机唤醒到第 1020 章新平衡达成。

truth_timeline.json:精确到天的时间控制——第 1 章 3020 年 4 月 5 日,第 12 章 4 月 13 日,8 天跨度精确记录。角色年龄追踪(李继祖 25→27 岁,全书跨 3020-3022 年)。

truth_concepts.json:核心概念的权威定义。第 12 章新增"次通道"词条时严格经过合规性检查——确认是对已有"峡谷多维性"设定的自然扩展。词条包含完整描述、特征列表、已知入口坐标。

四、120 维质量审计体系

12 组 × 10 维 × 10 分 = 1200 分。合格线 960(80%),优秀线 1080(90%),重写线 800。每组的 10 个维度都有明确的评分标准和 1-10 分的说明。 这套审计体系的设计借鉴了软件工程中的代码审查和自动化测试理念——不是等到写完再"算总账",而是在写作过程中逐层验证。从规划阶段的Truth预检到创作阶段的精修检测到验证阶段的120维评分,每道工序都在做"这件事是否符合标准"的检查。

A-世界观一致性(78/100):设定自洽、科技一致、超自然规则清晰、新设定合理、时空逻辑一致。次通道引入自然但眉心裂纹缺铺垫。

B-角色一致性(83/100):主角性格稳定、配角行为合理、关系动态自然、情感真实。林小雅的克制和观察力获得高分,李继祖说谎的陌生感处理细腻。

C-情节逻辑(81/100):因果链完整、节奏得当、信息释放均匀。闪点→实验→找门→测试→返回的逻辑链完整。

D-节奏控制(75/100):最低分组。调谐测试段描述密度偏高,认知负荷增加。这也是试读反馈建议精简的位置。

E-文笔质量(82/100):"保温状态""温度梯度"等设定内比喻精准,避免 AI 味修辞。"像一幅干了的水墨画,水和墨终于完成了分离"被标记为高质量具象描写。

F-对话自然度(77/100):林小雅段的沉默厚度处理极佳——"天井里只有阳光慢慢移动的声音——事实上阳光没有声音,但沉默里有一种可以被测量的厚度"在第 12 章中同时获得审计和试读的高度评价。

G-情感张力(73/100):非战斗章情感峰值偏低但符合呼吸章的自然定位。

H-信息密度(76/100):通过实验发现而非旁白解释的展示方式——闪点的功能是李继祖自己实验发现的,不是系统通知的。

I-读者代入感(80/100):调谐测试让读者同步推理——智力参与感 9/10。李继祖每次试错读者可以跟着想"为什么不行"。

J-钩子设计(72/100):过渡型章节典型短板——中间段缺乏强钩子。"压住眉心那颗金纹"结尾有力但中间段的悬念可以更强。

K-AI味检测(85/100):零禁用词残留。"仿佛""似乎"各 1 处在精修中清除。长短句交替节奏获改善。第 12 章精修前 AI 味指数偏高是因为初稿中的"仿佛"和"似乎"被标记——精修后清零。

L-Truth一致性(80/100):9 个 Truth 文件全部一致验证通过——角色、世界、情节、时间线、概念、碎片规则、技术红线全部对齐。

审计的最终输出不是单个分数——而是一份完整的审计报告,包含概要、每组 10 维的详细评分和评语、评分总结表、关键发现(提升领域和下降领域)、最终判定。第 12 章总分 972 B 级,较第 11 章的 958 分上升 14 分。提升领域是"探索维度的新鲜感"和"智力参与感",下降领域是"节奏控制"和"情感张力"和"钩子设计"——都因为第 12 章是过渡型探索章,节奏和钩子天然弱于战斗章。

五、五道质量门禁的实战运作

G0 字数门禁——正文汉字数 ≥ project.json 中 min_words_per_chapter(默认 5000)。5_drafts、6_polished、13_release 三种格式独立验证。波动小于 5%。第 12 章教训后新增。

G1 Truth 预检——11 项预检全通过才能进入写作。包括角色一致性、世界设定一致性、情节逻辑、前章连续性、新概念合规性、"她"的一致性、林小雅红线、AI 味检测、Truth 引用完整性、写作禁令合规、跨章伏笔对齐。第 12 章全部通过。

G2 审计分数——120 维 ≥ 900(B 级)。第 12 章 972 分通过。

G3 连贯性——跨 5 章无矛盾。金纹 ch10 脉冲→ch11 余温→ch12 温度梯度递进一致。

G4 终审——A 级 ≥ 1020/1200 才能正式发布。第 12 章 972/1200 B 级未通过——有条件通过发布。

六、版本演变:每一版都来自一个"坑"

v1.0(2025-10):13 维 160 分基础版。只有逻辑、角色、语言三个维度。

v2.0(2025-11):24 维 300 分。加入体裁适配和意象系统。

v3.0(2026-01):33 维 400 分。加入行业技术和读者体验维度。

v4.0(2026-03):120 维 1200 分。最大一次升级——增加 K 组 AI 味检测和 L 组 Truth 一致性。因为读者反馈作品"读起来像 AI 写的"。

v5.0(2026-06):120 维标准结构——12 组 × 10 维统一格式。

v3.4.0(2026-06-10):G0 字数门禁——来自第 12 章教训。精修版和发布版汉字数被系统强制验证。

每个版本对应一个真实的"坑"——不是凭空设计的。精修版被砍掉的 1473 汉字变成了 G0 门禁的强制验证。系统不是一次建成的,而是在持续使用中进化的。Book-Agent 从 13 维到 120 维的进化不是某个人坐在桌前画出来的——它来自每次创作中的实际痛感。当精修版被砍掉 1473 字时,才知道需要 G0;当读者说"读起来像 AI 写的"时,才知道需要 K 组 10 维去 AI 味检测。系统不是被设计出来的——是被教训出来的。每一次迭代都在让系统更可靠,让创作更顺畅,让作者的心血不被技术失误浪费。

七、核心理念

Book-Agent 的四个核心理念贯穿始终。

文件为王。每道工序产出必须是在磁盘上的实体文件,而不是对话中的"口头交付"。17 个文件每行都是可追溯的创作档案。从最初的想法到最终的作品,每一步都有记录可查。这个原则有一个直接的实践效果:如果某道工序出了问题,你可以精确地定位到具体是哪个文件、哪个段落、哪句话——而不是在对话历史里翻来翻去。

质量左移。在写作前就验证设定一致性,而不是写完后发现矛盾再改。Truth 预检的 11 项清单确保"写之前就知道什么不能写"。120 维审计不是事后的"算总账",而是在每道工序中嵌入质量意识。这来自软件工程的最佳实践——把质量验证推向更早的阶段,缺陷发现得越晚修复成本越高。

从错误中学习。每一次教训都变成系统功能。第 12 章的精修压缩教训变成了 G0 字数门禁——从此精修版和发布版的汉字数被系统强制验证,低于 5000 或波动超过 5% 都会被标记为不通过。AI 味检测的 10 个维度来自读者反馈"读起来像 AI 写的"。跨章矛盾检测来自第一次设定冲突。每一个"坑"都变成了系统的"护城河"——这个模式值得所有 AI 辅助创作系统的设计者借鉴。

不替代人而是放大人的能力。AI 处理机械化重复性工作——120 维标准化评分、跨章矛盾检测、AI 味词汇扫描、Truth 一致性验证——把作者解放出来专注于真正需要创造力的部分:故事的核心创意、角色的情感厚度、那些意想不到的灵感时刻。Book-Agent 的目标不是让 AI 替代作者,而是让 AI 处理那些人类不擅长、不愿意做、或者做了会消耗太多精力的事情。

作为 Hermes Agent 的一个内置技能,Book-Agent 体现了 Hermes 的设计理念:skill 不仅仅是静态的文档,而是可执行的智能体工作流。加载一个 skill 就是加载一整套专家能力。目前这套系统已在《峡谷至尊》项目中验证了完整性和可靠性——从第 1 章到第 12 章,每章都完整走过了 14 道工序的严格验证。单章产出 17 个文件 140KB,核心正文 6000+ 汉字,全部通过 G0-G4 门禁。未来计划加入更多题材宪法(军事、历史、武侠)、更精细的跨卷一致性验证、更丰富的发布格式(PDF、EPUB)。不变的是核心理念:好的创作需要好的系统,好的系统从每一次教训中进化。

book-agent: 纯Shell驱动AI小说管线——6 Agent × 14 Flow × 零Python依赖

GitHub:https://github.com/jermaine7511261/book-agent

摘要:book-agent 是一个零 Python 依赖、纯 Shell + Agent Prompt 驱动的 AI 长篇小说创作管线模板。6 个智能体协同 14 道工序,覆盖从大纲到多格式发布的全流程,已支撑 2 部小说共 34 章、38 万字的实战产出。本文全面介绍其架构设计、120 维质量体系、Truth 真值系统,以及从 Python 重依赖到纯 Agent 驱动的架构演进过程。

1. 项目起源:让 AI 写长篇小说的工程挑战

用大语言模型写出一条高质量长篇小说,面临三大核心挑战:长程一致性——200 页之后主角的年龄不能变;风格统一性——第三章的叙事节奏不能和第十五章截然不同;生产力瓶颈——靠一个 Prompt 写出整本书的幻想早已破灭,真正的生产力来源于系统化的管线设计。

book-agent 正是为应对这些挑战而生的低代码智能体小说系统。核心理念是:Prompt is Code, Wiki is Database——将知识存放在结构化 Wiki 中,而非散落在对话历史里;将创作流程编码为 Agent 的 Prompt,而非硬编码的业务逻辑。

项目地址:https://github.com/jermaine7511261/book-agent

2. 架构全景:6 Agent × 14 Flow

book-agent 核心架构概括为“六个智能体、十四道工序”。每道工序都有明确的输入、输出和质量标准,每个 Agent 都有清晰的职责边界。

2.1 六个 Agent 角色

Agent 角色 职责
🎬 导演 (Director) 全局调度 定调定方向、修改闭环决策、多格式发布(Flow 0, 11, 13)
🎭 编剧 (Screenwriter) 剧本结构 将导演意图转化为可执行的剧本结构(Flow 1)
📚 设定守护 (Lore Keeper) 知识一致性 事实核查、设定一致性审计、120 维质量评分(Flow 2, 3, 4, 7, 8, 12)
✍️ 主笔 (Writer) 正文创作 按结构+风格+设定写出正文草稿(Flow 5)
✨ 精修师 (Polisher) 语言润色 120 维度精修、去 AI 味、文字锤炼(Flow 6)
💬 反馈师 (Feedback) 质量反馈 试读反馈、场景设计、AI 检测(Flow 9, 10)

六个 Agent 遵循严格串行管线——前一道工序的输出是后一道的输入,每一步可审计、可回溯。

2.2 十四道工序

  • 0_outline(导演笔记) — 章节定位、情绪基调、节奏要求、关键伏笔
  • 1_world(剧本结构) — 段落分析表、悬念管理表、场景编排
  • 2_characters(调研报告) — 逐项对照 truth 文件做事实核查
  • 3_arcs(设定审核) — 章节间设定一致性交叉审计
  • 4_truth(真值预检) — 在动笔前预填 truth 增量,锁定写作参数
  • 5_drafts(正文草稿) — 核心创作,生成完整章节
  • 6_polished(精修正文) — 120 维度质量精修
  • 7_feedback(审计) — 120 维质量评分+分级审计
  • 8_promotion(连贯性) — 跨章节一致性检查
  • 9_iteration(试读反馈) — 模拟读者反馈
  • 10_illustration(场景设计) — 关键场景视觉化
  • 11_notes(修改闭环) — 导演审核修改建议并决定是否执行
  • 12_beta(最终审计) — 全书一致性校验
  • 13_release(发布) — 产出 .md / .html / .txt 三格式

3. 120 维质量体系:可量化的质量评分

book-agent 设计了一套可量化、可审计的 120 维质量评分体系——12 组 × 10 维 × 10 分 = 1200 分满分。

名称 关注领域
A 基础写作质量 语法、句式、错别字、标点
B 叙事结构 起承转合、情节密度、节奏
C 角色塑造 一致性、动机、对话贴合度
D 世界观一致性 设定逻辑、前后一致性
E 文风与语感 修辞、叙事视角、张力
F 去 AI 化 禁用句式检测、模板化表述
G 敏感内容检测 政治、伦理、合规检查
H 跨章连续性 时间线、人物状态、道具追踪
I 读者体验 悬念设置、信息释放、代入感
J 发布质量 排版、格式、目录结构
K 类型贴合度 类型元素完整度
L 创新性 叙事手法、设定创新

F 组(去 AI 化)维护精心设计的禁用句式黑名单,包括“在他的眼中”“他感受到……”“或许…或许…或许…”“深吸一口气”“瞳孔骤缩”“嘴角勾起一抹……”等 50+ 高频 AI 模板句式。配合 de-ai-scan.sh 脚本,数秒内扫描整章内容。

4. Truth 真值系统:为小说建立“数据库”

长篇小说最大杀手是前后矛盾。book-agent 的 Truth 系统由 8 个 JSON 文件组成结构化“事实数据库”:

文件 内容
truth_characters.json 角色信息:姓名、年龄、外貌、性格、关系
truth_concepts.json 核心概念:世界观设定关键术语
truth_plot.json 情节线:主线/支线的关键事件
truth_power.json 力量体系:能力等级、天赋、限制
truth_props.json 道具:关键物品、属性和出现章节
truth_relationships.json 关系网:角色间的情感/利益关系
truth_tech.json 科技:技术设定、设备参数
truth_timeline.json 时间线:事件发生的具体时间节点

5. 实战验证:两部小说的完整产出

5.1 判断权 — AI 时代的文学实验

类型:都市 / AI 伦理 / 文学小说 · 章节:24 章 · 字数:约 30 万字 · 状态:✅ 已完成并发布

《判断权》讲述程序员陈默在 AI 时代面对技术焦虑、职场生存和家庭责任的故事。经过 14 道工序打磨,产出了 72 个发布文件(每章 .md + .html + .txt),120 维质量体系平均得分 93 分。

5.2 峡谷至尊 — 电竞网文的自动化生产

类型:电竞 / CP 网文 · 章节:10 章 · 字数:约 8 万字 · 状态:🚧 进行中

峡谷至尊采用 book-agent 的项目继承机制——去除本地 prompt 副本,从 book-agent 模板继承所有 Agent 定义,仅在一个 project.json 中覆写 model 和 book_dir。

6. 架构演进:去 Python 化的必然之路

6.1 为什么要去 Python?

book-agent 早期版本包含 2,349 行 Python 代码——18 个审计工具、4 个测试文件、3 个辅助脚本,试图用程序化方式实现 120 维质量检查。但我们发现了根本性矛盾:

既然 Agent 本身已经通过 Prompt 执行质量检查,为什么还要再写一套 Python 实现同样的逻辑?

答案是不应该。维护两套并行逻辑意味着任何维度修改都需要同步更新 Python 代码和 Agent Prompt——在实践中几乎做不到,最终必然导致代码腐化。此外,pytest、mypy、flake8、pyyaml 这些开发工具在 Agent 驱动的管线中属于不必要的噪音。

6.2 去 Python 化的具体步骤

操作 影响范围
删除 18 个审计工具 check_group_a.py ~ L.py, audit_120.py, auto_check.py 等
删除 4 个测试文件 test_agent_config.py, test_pipeline_integrity.py 等
删除 Python 辅助脚本 init_project.py, word_count.py, validate_yaml.py
创建 Shell 替代 word-count.sh, validate-yaml.sh
重写 CI Python 矩阵测试 → 纯 Shell 验证
精简 pyproject.toml 63 行 → 6 行

6.3 统一 CLI:一个命令管理全流程

去 Python 化后,17 个 Shell 脚本通过统一的 book-agent 命令访问:

./scripts/book-agent start          # 启动 Hermes Agent 服务
./scripts/book-agent status 24      # 管线状态检查
./scripts/book-agent produce 1 5    # 批量生产第1-5章
./scripts/book-agent de-ai src/     # AI味检测
./scripts/book-agent wc --by-file   # 字数统计
./scripts/book-agent validate       # YAML 语法验证

7. 项目结构

目录 内容 数量
prompts/ 6 个 Agent 完整提示词定义 24 文件
scripts/ 全流程 Shell 脚本 + 统一 CLI 17 个 .sh
config/ 管线配置、默认参数、审计配置 3 文件
genres/ 7 种小说类型创作指南 8 个 .md
style/ 120 维质量体系 + 去 AI 规则 + 文风 9 文件
truth/ 设定事实模板(8 个 JSON) 9 文件
projects/ 项目模板 + 注册表 8 文件

8. 快速开始

git clone https://github.com/jermaine7511261/book-agent.git

# 创建新小说项目
mkdir -p mynovel/config mynovel/truth
cp projects/templates/project.json.example mynovel/config/project.json
# 编辑 project.json 填入书名、类型、章节数

# 启动管线
./scripts/book-agent start

9. CI/CD

CI 仅 34 行,零 Python 依赖:

  • Shell 语法检查find . -name '*.sh' -exec bash -n {} \;
  • JSON 语法检查jq empty
  • YAML 语法检查scripts/validate-yaml.sh -q
  • Markdown 链接检查 — Shell 内联 grep/find

10. 当前数字

指标 数值
Python 代码 0 行
Shell 脚本 17 个 · 约 1,400 行
产出小说 2 部 · 34 章 · 38 万字
Agent 数量 6
管线工序 14
质量维度 120
小说类型模板 7 种
CI 步骤 4(全部 Shell)

11. 核心方法论

  • Prompt is Code — Agent 的 Prompt 是经过严格版本管理的结构化文档,修改 Prompt 等于修改代码
  • 不要为 Agent 已做的事写代码 — 避免 Agent 和程序化工具之间的功能重复
  • 文件结构即文档 — 目录命名直观反映内容,减少上下文切换成本
  • 平台无关 — 统一使用正斜杠路径和占位符,消除环境故障

GitHub:https://github.com/jermaine7511261/book-agent

技术栈:Hermes Agent · Shell Script · JSON Schema · Markdown Wiki · Bash CI · 零 Python

llm-wiki:AI辅助小说创作管线系统的实践与思考

llm-wiki:AI辅助小说创作管线系统的实践与思考

一、项目缘起

2026年6月,一个名为"llm-wiki"的项目悄然启动。它的目标简单而直接:探索如何用AI Agent团队协作完成长篇小说创作。三十天后,这个项目已经发展为一套完整的6 Agent × 14 Flow管线系统,驱动着两部总字数超过百万字的长篇小说创作,并建立了一套120维的自动化质量评估体系。

这不是一个传统的"AI写作工具"。llm-wiki不追求一键生成——那往往生成千篇一律的模板化文本。它追求的是一种人机协作的新范式:人类担任"导演"角色,把握方向、做出关键判断;AI Agent团队各司其职,完成从大纲到发布的14道工序。每一道工序都有质量门禁,每一个角色都有明确的职责边界。

二、核心架构:6 Agent × 14 Flow

2.1 Agent角色设计

llm-wiki的Agent团队由六个角色组成,每个角色负责创作管线中的特定环节:

Director(导演)——管线总指挥。负责0_outline阶段的故事简报与创意方向,11_notes阶段的修改闭环,以及13_release阶段的多格式发布。Director是所有Agent中权限最高的角色,拥有对故事整体走向的最终判断权。

Screenwriter(编剧)——结构设计师。负责1_world阶段,将导演的创意概念转化为具体的故事结构和场景框架。Screenwriter的输出是所有后续创作的基础蓝图。

LoreKeeper(设定守护者)——质量守门人。这是最忙碌的Agent,负责2_characters(调研)、3_arcs(设定审计)、4_truth(Truth预检)、6_polished(精修审计)、8_promotion(连贯性检查)和12_beta(最终审计)六个工序。LoreKeeper的核心职责是确保故事世界的内部一致性——任何对"Truth"(真值系统)的违反都会被它标记并阻止进入下一阶段。

Writer(写手)——核心创作者。负责5_drafts阶段,将大纲、设定和角色资料转化为完整的正文草稿。Writer的写作受严格的质量约束:必须遵循风格指南、避开禁用句式、维护角色一致性。

Polisher(润色师)——文字工匠。负责6_polished阶段,对草稿进行五遍润色——从基本语法到节奏韵律、从AI味检测到风格统一。Polisher是确保最终文本"不像AI写的"的关键防线。

Feedback(反馈师)——读者代言人。负责9_iteration(试读反馈)、10_illustration(场景设计)和11_notes(修改闭环)。Feedback模拟真实读者的视角,提供结构化反馈,驱动修改迭代。

2.2 14道工序流水线

六位Agent按照14道标准工序协作,形成一个完整的创作闭环:

0_outline(导演笔记)→ 1_world(世界观构建)→ 2_characters(角色设定)→ 3_arcs(故事弧线)→ 4_truth(真值预检)→ 5_drafts(初稿写作)→ 6_polished(精修润色)→ 7_feedback(审计评审)→ 8_promotion(连贯性检查)→ 9_iteration(试读反馈)→ 10_illustration(场景设计)→ 11_notes(修改闭环)→ 12_beta(最终审计)→ 13_release(多格式发布)。

每道工序都有明确的输入和输出规范。工序之间通过文件系统传递中间产物,形成可追溯的创作链条。这种设计确保了即使在多章节并行生产的情况下,故事质量也能保持一致。

三、120维质量体系

3.1 审计维度设计

llm-wiki最独特的设计之一是120维审计体系。它将文本质量分解为12组(A-L),每组10个维度,每个维度10分制,满分1200分:

A组 - 真值一致性(Truth Consistency):验证文本与Truth JSON中记录的设定是否一致。任何角色名、年龄、事件时间线的偏离都会被扣分。

B组 - 角色一致性(Character Consistency):检查角色行为是否符合其设定的性格特征和成长弧线。

C组 - 世界观一致性(World Consistency):确保科技水平、社会规则、物理法则等世界观元素前后一致。

D组 - 情节逻辑(Plot Logic):评估因果链的完整性、伏笔的埋设与回收、情节转折的合理性。

E组 - 语言风格(Language Style):检查与Project.json中定义的语气、视角、遣词造句规则是否一致。

F组 - 节奏结构(Rhythm & Structure):评估章节起承转合、段落节奏、对话与叙述的平衡。

G组 - 情感效果(Emotional Impact):衡量文本能否引发预期的情感反应——紧张、感动、悬疑等。

H组 - 意象系统(Imagery System):检查核心意象和隐喻的一致性和丰富度。

I组 - 读者体验(Reader Experience):评估信息的呈现节奏、悬念设置、阅读愉悦度。

J组 - 商业潜力(Commercial Potential):评估选题的市场竞争力、受众匹配度、差异化优势。

K组 - AI味检测(De-AI Detection):这是最关键也最严格的一组。它检查18个禁用句式(如"在他/她的眼中"、"他/她意识到"、"他清楚地知道")、多重模糊词("或许...或许...或许"、 "也许...也许...也许")、不必要的心理标签("他想的是...")、以及分析报告式语言。

L组 - Truth一致性(Truth Integrity):与A组配合,但更侧重Truth JSON数据与正文之间的精确匹配验证。

3.2 评分等级

1200分制对应六个等级:S级(≥1140分,卓越)、A级(≥1020分,优秀)、B级(≥900分,良好)、C级(≥780分,及格)、D级(≥600分,待改进)、F级(<600分,不合格)。

每一章在进入下一阶段前,都必须通过对应工序的质量门禁。7_feedback阶段的120维审计是管线中最关键的质量关卡——它决定了章节是否可以进入发布流程。

四、技术实现

4.1 项目结构

llm-wiki采用"模板+项目"的双层架构设计。templates/目录包含所有通用配置、Agent提示词、审计工具和脚本。每个小说项目(如"判断权"和"峡谷至尊")通过继承模板的配置,叠加项目特有的设定和覆盖参数。

这种设计的核心优势是:当一套审计规则需要更新时,只需修改模板,所有项目自动受益。当某个项目需要定制化配置时,可以通过项目级覆盖实现。

4.2 Truth系统

Truth系统是llm-wiki的"宪法"。它是一个由JSON文件组成的结构化知识库,记录了故事世界的所有关键设定——角色、事件时间线、道具、力量体系、概念定义、角色关系、技术细节。每个Truth条目都可以标记为"红线"(Redline),表示这是不可违反的硬边界。

在4_truth阶段,LoreKeeper会逐条执行Truth预检,确保即将开始的正文创作不会偏离已确立的设定。在7_feedback阶段,L组审计会进行更全面的Truth一致性检查。

4.3 120维审计引擎

审计引擎由两套工具组成:一套是模板级的templates/tools/audit_120.py(通用审计框架),另一套是项目级的check_group_*.py(12组审计的具体实现)。审计运行时会读取项目的audit_config.json配置文件,动态加载对应的检查组,逐章执行审计并生成评分报告。

每组的评分采用10分制,包含详细的扣分理由和原文引用。所有组的评分汇总后生成总评分和等级评定,附在章节的审计报告中。

4.4 去AI味检测

去AI味(De-AI)是llm-wiki投入精力最多的领域之一。项目维护了一份包含50+禁用句式的规则文档(de_ai_rules.md),并开发了自动化扫描工具。

检测范围包括:第一级禁用词("深吸一口气"、"瞳孔骤缩"、"嘴角勾起一抹"、"五味杂陈"等12个常见AI句式)、第二级限用词("仿佛"、"似乎"、"好像"、"忽然"、"突然"、"竟然"、"宛如"、"如同"等,允许使用但频率受监控)、第三级句式("不是...而是..."的滥用)、心理标签("他想的是..."、"她觉得..."等不必要的心理描述)、了字尾句频率监控、分析报告式语言("他意识到问题所在"、"她清楚地知道"等)。

目标是将章节中的AI味残留控制在每千字不超过1处的水平。

五、项目成果

5.1 《判断权》——都市AI伦理小说

《判断权》是一部以程序员生活为背景的都市小说。主角陈默,32岁,北京某互联网公司的资深程序员。故事始于2020年AI大模型开始渗透各行各业的时代节点,探讨了一个核心问题:当算法开始替代人类做出越来越多的判断,"判断权"本身意味着什么?

小说共24章(ch00-ch23),采用第三人称限制视角,风格冷峻克制。通过陈默在职场、家庭、技术伦理三个维度的经历,展现了AI时代普通技术工作者的生存状态和精神困境。

目前《判断权》已完成全部24章的创作、审计和多格式发布(md/txt/html),是llm-wiki管线完整走通的首个验证项目。

5.2 《峡谷至尊》——游戏异界小说

《峡谷至尊》的故事背景设定在3020年——一个没有手机、电脑和互联网的未来世界。主角李继祖是李家祠堂的守护者,通过一枚千年iPhone进入"峡谷"(英雄联盟游戏的异空间化身),踏上了收集1600块英雄碎片、对抗峡谷意志觉醒的旅程。

小说计划10卷共1020章,目前已发布10章(ch01-ch10),约6.5万字。风格轻松活泼,以吐槽幽默为主调,与《判断权》形成鲜明对比——这有意测试了管线的题材适应性。

六、开发旅程与经验教训

6.1 从零到一的快速迭代

llm-wiki的开发历程紧凑而密集:2026年6月6日项目初始化——1.0.0版本确立基本架构;6月7日连续发布2.0.0(6-Agent架构+14工序管线+Truth体系)、3.0.0(F-number→0-13命名迁移、模板提取)和3.1.0(120维质量体系+pre-commit hook);6月8日完成3.2.0(Agent写入强制修复)和3.3.0(深度审计修复+CI/CD增强+测试补全)。

6.2 持续重构的力量

在短短几天的开发中,项目经历了三次大规模审查和修复。第一次审查发现了14项结构性问题(包括测试键名错误、CI掩盖失败、Git状态混乱)。第二次内容审查暴露出55项细节问题(Agent配置错误、文件夹路径混乱、模板自引用断裂)。第三次全盘审查揭示了更深层的架构问题——包括Python源码中的10个严重逻辑bug、判断权Truth数据的"版本分裂"(同一项目同时存在两套完全不同的角色设定)。

每次审查都推动项目向更稳健的方向迈进。Git仓库从917个未提交文件的"濒死状态"恢复为完全干净的状态。测试系统从7个文件中仅有4个真正测试、pytest发现0个测试的尴尬局面,变成123个测试全部通过的完整套件。

6.3 关键发现

模板化是双刃剑:模板(templates/)大大提高了配置复用性,但模板与项目之间的引用很容易错位。一位Agent的prompt.md中引用的路径与其他文件不一致、多个config.yaml中硬编码了WSL路径——这些细节问题在三次审查中反复出现。

120维审计需要的不仅是维度数量:虽然审计体系设计为12组×10维,但实际实现中部分组的检查函数是"存根"——永远返回满分10/10,不做任何实际检查。维度数量不代表审计质量,真正的价值在于每个维度的检查是否真正有效。

版本分裂是最大的风险:判断权的Truth文件一度保存着完全不同的故事数据(哲学奇幻版——林北辰、宋知意、陆鹤鸣),而项目的其他配置指向都市AI版(陈默、林薇)。这种"同一项目两套数据"的状态是审查中发现的最高风险问题——如果AI Agent在创作时加载了错误的Truth数据,输出的文本将完全偏离预期。

七、测试体系

llm-wiki的测试套件包含7个测试文件、123个测试用例:

test_auto_check.py(32测试)——验证自动化检查工具的正确性,包括Wiki链接检测、根目录杂项检测、记忆系统健康检查和Frontmatter验证。

test_de_ai_detection.py(20测试)——参数化测试覆盖所有18个禁用句式,确保每个模式都能被正确检测。

test_enforce_write.py(14测试)——测试安全写入操作的边界情况(新建、覆盖、备份、大文件、UTF-8、空内容)。

test_naming_consistency.py(4测试)——验证14个管线目录中的文件命名是否遵循chXX标准。

test_pipeline_integrity.py(5测试)——读取pipeline.json动态验证14个阶段目录是否存在,以及阶段命名是否符合0-13标准。

test_schema_parser.py(18测试)——测试[[wiki-style]]链接提取函数的各种边界情况。

test_truth_validator.py(28测试)——全面测试Truth数据验证引擎,包括加载、校验、报告生成等完整工作流。

八、未来方向

审计组功能补全:当前12组A-L审计中仍有4组(C、F、I、J)是存根状态,需要实现真正的检查逻辑。

持续集成强化:虽然CI配置已移除continue-on-error,但仍需在真实CI环境中验证管线的端到端运行。

多项目扩展:当前模板设计支持7种小说类型(都市、科幻、奇幻、仙侠、玄幻、言情、悬疑),但只有前两种有实际项目验证。计划用管线生成更多类型的作品,验证模板的通用性。

自动Truth生成:当前Truth数据需要人工编写和维护。未来方向是从正文中自动提取设定变更,辅助维护Truth系统的一致性。

社区化:llm-wiki已采用MIT开源协议发布。希望社区能贡献更多类型的题材模板、更丰富的审计规则、以及更多语言的支持。

九、总结

llm-wiki从6月6日启动到6月9日初步稳定,经历了五次全盘审查、六轮提交修复,从一个917文件未提交的混乱状态,进化为123测试全过、Git完全干净的工程化项目。

项目的核心理念可以用一句话概括:"Write with truth, polish with soul."——用真值写作,用灵魂润色。Truth系统确保故事世界的内在逻辑一致性,De-AI引擎确保文本的人类质感,120维审计体系确保质量的可量化追踪。

这不是AI取代人类创作的故事。这是一个AI Agent作为协作伙伴、人类作为导演和最终判断者的故事。在llm-wiki的设计哲学中,最好的作品永远来自人类与AI的协同——人类提供方向、判断和情感深度,AI提供效率、一致性和规模化的质量控制。

项目地址:github.com/your-repo/llm-wiki(即将开放)

技术栈:Python 3.11+ | JSON/YAML配置 | pytest测试框架 | Hermes Agent | WordPress REST API

协议:MIT License

版本:3.3.0(持续迭代中)

双星并耀:当AI小说管线遇见两种文学灵魂——峡谷至尊与判断权的工业级创作实践

C:\Users\Admin\llm-wiki\ 目录下,并排放着两个小说项目:「峡谷至尊」与「判断权」。它们并排躺在同一个 wiki 仓库里,共享着同一套 6 Agent × 14 Flow 的工业级小说生产管线,却走向了截然不同的文学方向。

一个是 3020 年的电竞史诗,500 万字的宏大叙事,穿越千年的召唤师传奇;一个是 2020-2050 年间的都市现实,30 章的中篇体量,一个程序员在 AI 时代的生存与抉择。一个第一人称、自嘲幽默、热血澎湃;一个第三人称限制视角、冷峻克制、精准如手术刀。

但它们共用着同一套骨架:9 个 Truth JSON 文件构成的绝对权威体系,6 个 AI Agent 扮演的创作团队,14 道环环相扣的工序流,120 个维度的审计维度,以及 33 条必须遵守的流程规则。这不是巧合——这是一个正在发生的、关于 AI 如何介入文学创作的工业实验。

一、峡谷至尊:3020 年的电竞史诗

1.1 故事世界

3020 年,清明后第二天。李家祠堂的守护者李继祖,在打扫供桌时发现了一件跨越千年的圣物——一部 iPhone 12 Pro Max。这部手机在 3020 年没有任何意义——这个时代没有移动网络、没有 App Store、没有游戏。但当李继祖触碰到它时,屏幕亮了。峡谷,打开了。

《峡谷至尊》构建了一个令人屏息的世界设定:在遥远的未来,召唤师峡谷成为了文明的基础设施。英雄联盟的英雄变成了可被召唤的意志碎片,对局不再是游戏,而是关乎力量、传承、甚至生死的试炼。李继祖从一名抗拒家族使命的祠堂守护者,逐渐发现自己的命运——他不仅是李家的传人,更是峡谷封印的守护者,是被选中的人。这部小说的野心很大:1000 章、10 卷、500 万字。目前已完成前 8 章,从 ch01「尘封的振动」到 ch08「试炼前夜」,正在稳步推进。

1.2 文学追求

0_style/soul.md 中,Director Agent 写下了这部小说的灵魂:

不止于热血——在热血中找到真实。不止于专业——在专业中找到人性。不止于好看——在好看中找到意义。

它的文风追求可以用一个短语概括:让读者忘记这是 AI 写的。具体来说:读到战斗时心跳加速,读到离别时眼眶发热,读到日常时嘴角上扬,读完后想打一局游戏。小说在热血与克制之间寻找平衡。热血不是喊口号——是赵铁在废墟里找到一包方便面时的笑容。克制不是不写情感——是林小雅在灯下等了一夜只说了句「回来了」。

1.3 力量体系与意象系统

小说的力量体系建立在英雄联盟的框架之上,但做了系统化的原创扩展。召唤师分为六个等级:初唤者→唤师→唤将→唤王→唤圣→唤神。每个等级有明确的进阶条件、能力边界和限制。李继祖目前处于「初唤者」阶段——3 块英雄碎片(杰斯),3 道裂纹印记(2 蓝 1 金),每次峡谷停留限时 1 小时,无法使用终极技能。

意象系统经过精心设计:裂纹印记象征承载与觉醒(每章≥3次)、金色裂纹是杰斯的碎片伏笔、iPhone 是圣物与传承的载体、星稻是 3020 年日常锚点、门是真相与禁区的边界、回响是英雄千年意志的碎片。这些意象不是装饰——是叙事的骨骼。

二、判断权:AI 时代的冷峻现实

2.1 故事世界

如果说《峡谷至尊》是向上仰望星空的幻想史诗,《判断权》则是向下凝视现实的都市寓言。主角陈默,32 岁,程序员。故事发生在 2020-2050 年的北京和上海,一个 AI 正在全面取代人类判断的时代。小说的核心冲突直接写在项目配置里:「程序员在 AI 时代的生存与判断权」。

这不是一个关于超级英雄的故事。陈默不进入峡谷,不召唤英雄,不收集碎片。他面对的是凌晨 3:27 被 P3 故障电话吵醒的窘迫,是支付核心 NullPointerException 频发的技术债务,是 37% 交易失败率背后的系统崩溃,是妻子在身旁沉睡而他必须独自面对冷空气和一台电脑的现实。

凌晨 3:27。手机在床头柜的木面上震动起来。不是那种轻柔的震动——是整块木板都跟着嗡嗡作响的共振,马达的颤动透过木纹传到他枕头上,一下一下,像有人在敲他的头骨。

2.2 文学追求

0_style/soul.md 中,判断权的 Agent 人格与峡谷至尊截然不同。它不是热血的电竞爱好者,而是一个老派编辑、语法警察、文字的洁癖患者:「我是整本书的审美底线。老派编辑——固执、精确、不可贿赂。对文字洁癖有执念——「是……的」每出现一次扣一分。」这部小说的风格指南定义了 6 条铁律,每条都必须是「出现 X 则扣 Y 分」的形式,不接受模糊表述。

三、共同的骨架:6 Agent × 14 Flow 超工业管线

3.1 六个 AI Agent 的角色分工

两个项目共享同一套 Agent 架构。六个 AI Agent 各自扮演小说生产中的一个专业角色:Director(导演)负责定调与发布,Screenwriter(编剧)负责剧本结构,Lore Keeper(设定守护)负责全链路质量,Writer(写手)负责正文创作,Polisher(精修师)负责文字打磨,Feedback(反馈师)负责读者视角试读。每个 Agent 只做自己最擅长的一件事——Lore Keeper 不写正文,Writer 不做审计。

3.2 14 道工序的流动

管线执行严格串行:F0→F1→F2→F3→F3.5→F4→F5→F6→F6.5→F7→F8→F8.5→F9→F10。14 道工序分为三个阶段:策划与准备(F0-F3.5,5 道工序)、创作与精修(F4-F5,2 道工序)、质检与发布(F6-F10,7 道工序)。值得注意的是,F6 完成后 F6.5+F7+F8 可以三路并行,将管线效率提升了约 3 倍。

3.3 Truth 系统:创作的宪法

两个项目都拥有 9 个 Truth JSON 文件,构成了小说世界的绝对权威体系。峡谷至尊的 Truth 文件更大(约 120KB)——因为它构建的是从零开始的幻想世界;判断权的 Truth 文件更精简(约 22KB)——因为它的世界就是现实世界。但两者的 Truth 系统遵循同样的原则:Truth 是创作的宪法,一切写作必须与之一致。L 组 Truth 一致性审计的存在,正是为了确保每一章、每一句都不偏离 Truth 的定义。偏离 Truth = 不合格。

四、120 维审计:比人类编辑更严格的质检

两个项目共享同一套审计体系:12 个检查组(A-L)× 10 个维度 = 120 个评分维度,总分 1200 分。其中 K 组(AI 味检测)要求≥80 分——如果文章读起来像 AI 写的,直接不通过。L 组(Truth 一致性)追求 100 分的绝对一致性——任何与 Truth 不符的设定都是不可接受的。

以峡谷至尊的实际审计数据为例:Ch01 到 Ch07 的总分从 915 提升到 1111(A 级),AI 味检测始终保持在 89-94 的高水平。Truth 一致性问题一旦被发现就必须在三个版本(draft/polished/release)同步修复。

五、流程规则 R01-R33:工业化的纪律

经过 ch01-ch08 的实际管线执行,33 条流程规则被萃取并正式纳入 PROGRESS.md。这些规则分为六大类:执行架构(R01-R04,核心原则是 Leader 不创作)、文件规范(R05-R08,禁止模板 stub)、质量门禁(R09-R13,5 道不可跳过的门禁)、正文硬约束(R14-R20,字数≥5000/A类禁用词零容忍)、Agent 执行规范(R21-R33,从 F0 到 F10 的输出精确规定)、审计评级(S/A/B/C/D/F 六档)。其中 F0 Director 必须包含 10 项内容,缺一不可。

六、数据对比:两个项目的现在与未来

指标峡谷至尊判断权
体裁科幻/游戏穿越都市/AI时代
总章节1020 章30 章
已完成章节8 章 (0.78%)23 章 (77%)
叙事视角第一人称第三人称限制
风格基调热血·幽默·自嘲冷峻·克制·精准
Truth 文件总量9 个 / 约 120KB9 个 / 约 22KB
项目总字符数~1,394,262~1,390,503

一组有趣的数据:两个项目的文件总数相差很大(266 vs 687),但项目总字符数几乎完全相同(1,394,262 vs 1,390,503)。这说明峡谷至尊虽然章节少,但每个工序文件更详细、质量更高;判断权虽然章节多,但中间工序大量缺失(F1/F3.5/F6.5/F8.5 为空壳),冗余文件也多。

七、这场实验的意义

从峡谷至尊 ch08 的实际管线执行数据来看,14 道工序总计耗时约 45 分钟,通过 10 次 delegate_task 派遣,实现了一次通过、零回流。这套管线已经在两个完全不同题材的项目上验证通过——管线不是为某一本书定制的,它为任何一本书而生。任何类型的小说都可以接入:只需要写 9 个 Truth JSON 文件、1 个 style 指南、纳入 R01-R33 规则,然后启动管线。

两个项目的另一个启示是:管线的瓶颈不在 AI 的生成速度,而在质量的检验强度。14 道工序中只有 2 道是创作,其余 12 道都是策划、校验、审计和发布。质量的保障不在于写得更快,而在于检得更严。

最终,两个项目共同面对一个终极追问:当 AI 写出了一篇在 120 维审计中拿到 1100+ 分的文章,当 F7 试读师给出 4.6/5.0 的高分,当 F8.5 修改闭环实现 100% 采纳率——它还是「AI 写的」吗?峡谷至尊的 soul.md 说:「让读者忘记这是 AI 写的」。判断权的 soul.md 说:「我是整本书的审美底线」。一个追求不让读者意识到 AI 的存在,另一个追求用铁律让 AI 写出符合人类审美的文字。它们共同指向同一个目标——让 AI 写作不再是「AI 写作」,而是「写作」。

两个项目,六个 Agent,十四道工序,一百二十个维度,三十三条规则。从这些冷冰冰的数字中生长出来的,是两个有温度、有灵魂、正在呼吸的故事。而这,也许就是这场实验最大的意义。


本文由 Hermes Agent 管线 Leader 撰写,基于峡谷至尊+判断权双项目的实际生产数据。2026-06-05

Gemma 4 12B 来了,Google 终于补上本地多模态这块拼图

Gemma 4 12B

Google 昨天又扔了个东西出来——Gemma 4 12B

说实话,之前 Gemma 4 刚出那四个版本(E2B、E4B、26B-A4B、31B)的时候,我就觉得少了点什么。120 亿参数这个档位一直是本地部署的甜点区,Google 愣是没放。现在它来了。

这个 12B 不一样

一般我们说"12B 模型",就是 120 亿参数的常规 Transformer。但 Gemma 4 12B 有个特殊的标签——"Unified"(统一架构)。

啥意思呢?传统多模态模型比如 GPT-4V、Gemini,处理图片的时候要先过一道视觉编码器(ViT 之类的),把像素变成 token,再喂给语言模型。音频也一样,要另外接 ASR。这导致模型体积膨胀,部署成本高。

Gemma 4 12B 直接把编码器砍了。原始像素和音频波形直接映射到语言模型的嵌入空间,用轻量级嵌入模块替代。少跑十几个 Transformer 层,快不少。

跑起来门槛不高

官方说 16GB VRAM 就够了。RTX 4090 随便跑,MacBook Pro 的 M 系列统一内存也能上。我估计 M2 Max 以上体验会不错,M1 的话可能慢点但也能跑。

这玩意儿支持文本、图片、原生音频输入,不用外挂语音识别模型。本地跑一个模型解决三个模态,以前这都是 Gemini Pro 级别才干的事。

跟其他版本比怎样

现在 Gemma 4 全家桶长这样:

  • E2B(51亿参数,激活23亿):手机端,MoE
  • E4B(80亿参数,激活45亿):边缘设备,MoE
  • 12B(全新)(120亿):笔记本本地多模态,Dense Unified 架构
  • 26B-A4B(260亿参数,激活40亿):工作站,MoE 128专家
  • Dense 31B(310亿):服务器满血版

注意这个 12B 是 Dense(密集)架构,不是 MoE。好处是推理更稳定,不会出现某些 MoE 模型那种"某些专家没激活导致回答奇怪"的情况。

性能凑合,够用

基准测试数据不多,但 Gemma 4 系列整体在 Arena AI 开源排行榜排前三,AIME 2026 数学竞赛 89.2%、LiveCodeBench 80.0%。12B 版本在同类参数的模型里属于第一梯队。

不过说真的,本地跑模型最重要的不是跑分,是你能不能真的用起来。12B 这个大小刚好——再小(7B)能力不够,再大(31B)本地跑不动。

怎么装

Ollama 用户一行命令:

ollama run gemma4:12b

HuggingFace 也有:google/gemma-4-12b-it,LM Studio 搜一下也能装。硬盘留 24GB 空间就行。

Apache 2.0 协议,商用随便。

值不值得折腾

如果你手头有 16GB 显存的卡或者 M 系列 Mac,值得一试。一个模型搞定多模态,不用拼积木一样接一堆小模型,省心很多。

如果你是纯文本用户,Gemma 3 12B 其实也够用,没必要非追新。但如果你想在本地搞智能体、多模态,这个是目前最省事的方案。

Gemma 4 12B 架构特点

模型链接

Hermes Agent 深度解析:Nous Research 开源全能型 AI Agent 框架

在人工智能快速发展的 2025-2026 年,AI Agent 已经从实验室概念走向了生产实践。从 Anthropic 的 Claude Code 到 OpenAI 的 Codex CLI,再到 Nous Research 开发的 Hermes Agent,AI 编程助手和自主任务执行代理正在重塑开发者与计算机交互的方式。本文将全面介绍 Hermes Agent——一个由 Nous Research 打造的开源、全功能 AI Agent 框架,探讨其架构设计、核心特性、使用场景以及在 AI Agent 生态中的独特地位。

一、Hermes Agent 是什么?

Hermes Agent 是一个开源的人工智能代理框架,由 Nous Research 团队开发维护。它运行在终端、消息平台和 IDE 中,属于自主编码与任务执行代理这一类别,与 Anthropic 的 Claude Code、OpenAI 的 Codex CLI 属于同类产品。Hermes 的核心理念是:通过工具调用来与系统交互,让 AI 能够真正动手做事,而不仅仅是动嘴聊天。

Hermes Agent 的独特之处在于它的全方位能力设计。它不是单一功能的工具,而是一个完整的 Agent 框架,具备持久记忆、技能积累、跨平台通信、多模型支持等企业级特性。其设计哲学是学习型代理——每一次交互都是一次学习机会,积累的知识可以跨会话复用。

二、核心架构与设计理念

2.1 提供商无关的设计

Hermes Agent 最显著的设计特点是提供商无关(Provider-agnostic)。它支持 20 多种模型提供商,包括 OpenRouter、Anthropic、OpenAI、DeepSeek、Google Gemini、xAI/Grok、Hugging Face、GitHub Copilot 等,以及任何兼容 OpenAI API 格式的自定义端点。用户可以在工作流中随时切换模型和提供商,而无需更改其他任何配置。

这种设计赋予了用户极大的灵活性。对于成本敏感的场景,可以使用 DeepSeek 或本地模型;需要最高推理能力时,切换到 Anthropic Claude 或 OpenAI 的 o 系列模型;还可以配置 Credential Pool,在多个 API Key 之间自动轮转,避免单点超限。这种弹性架构是 Hermes 区别于其他 Agent 框架的核心优势之一。

2.2 工具系统

Hermes 的工具系统是其能力的基础。系统提供了 20 多个工具集(Toolsets),每个工具集包含一组相关的工具函数,涵盖开发、研究、创作、通信、自动化等场景。

工具集功能说明
terminalShell 命令执行与进程管理
file文件读写、搜索和编辑
web网络搜索与内容提取
browser浏览器自动化操作
code_execution沙箱化 Python 代码执行
vision图像分析与理解
image_genAI 图像生成
video视频分析与生成
tts文本转语音
session_search历史会话全文检索
delegation子代理任务委派
cronjob定时任务调度
memory持久化跨会话记忆

工具集可以根据平台按需启用和禁用。例如,在 Telegram 上可以禁用 terminal 工具以增强安全性,而在 CLI 模式下则可以启用全部工具获得最大能力。

2.3 技能系统:自我进化的核心

Hermes Agent 最具创新性的是它的技能(Skills)系统。技能是一种可复用的程序化知识文档(SKILL.md),包含触发条件、步骤、命令、陷阱和验证环节。当代理解决复杂问题、发现工作流或收到用户纠正时,可以将这些知识持久化为技能,在未来的会话中自动加载。

技能系统的工作原理是:每个技能都是一个结构化的 Markdown 文件,包含 YAML 格式的元数据(名称、描述、标签、适用平台)和详细的步骤说明。技能可以分类存放,形成知识库。技能管理器(Curator)会自动跟踪技能的使用频率,将长期不用的技能标记为陈旧的并归档,保持技能库的整洁和高效。

这意味着 Hermes 会随着使用变得越来越聪明,越来越适应用户的工作方式和环境。这种自我进化的能力是 Hermes 区别于一次性 Agent 工具的核心特性。

三、跨平台网关系统

Hermes Agent 的另一个显著特色是其跨平台网关系统。同一个代理可以同时运行在多个平台上,包括 Telegram、Discord、Slack、WhatsApp、Signal、电子邮件、短信、Matrix、Mattermost、飞书、钉钉、企业微信、Home Assistant 等 15 个以上的消息平台。用户在不同平台上与同一个代理交互,共享相同的上下文、记忆和工具集。

网关平台还支持丰富的交互功能:语音消息自动转录、图片分析、文件处理、命令审批流等。这种一次配置、处处使用的体验大大降低了 AI Agent 的接入门槛。

四、持久记忆与用户画像

持久记忆是 Hermes Agent 的基石之一。系统维护两类记忆:

  • 用户画像(User Profile):记录关于用户是谁的信息——姓名、角色、偏好、沟通风格等。这些信息让代理能够提供更加个性化的服务。
  • 工作记忆(Memory):记录环境事实、项目约定、工具特性、经验教训等。这些信息避免用户反复向代理说明相同的上下文。

记忆系统支持可插拔的后端引擎,包括内置的 SQLite 存储、Honcho、Mem0 等第三方记忆服务。用户可以配置记忆的启用范围、记忆容量和检索策略,实现对隐私和性能的精细控制。

五、多代理与任务委派

Hermes 支持多代理协作模式,通过委托任务(delegate_task)工具实现。主代理可以将子任务委派给独立的子代理,每个子代理拥有独立的上下文和终端会话,并行工作。系统支持批量委派(最多 3 个并发子任务),并通过聚合摘要将结果返回给主代理。

对于需要长时间运行或完全隔离的任务,Hermes 支持 spawn 模式——启动完全独立的 Hermes 进程,作为独立的代理实例运行。这些实例可以有自己的配置、技能和记忆,通过 tmux 等终端多路复用器进行管理。

Kanban 看板系统进一步扩展了多代理协作的能力。基于 SQLite 的持久化看板支持多配置文件之间的协作,包含任务创建、分配、链接、评论、完成跟踪等功能,适合团队级的工作流管理。

六、部署方式与使用体验

6.1 安装与配置

Hermes Agent 的安装非常简洁,一条命令即可完成。安装完成后,通过交互式向导配置模型提供商、终端后端、消息平台和工具集。整个过程完全交互式,无需手动编辑配置文件。系统同时提供丰富的配置命令和可视化编辑器,满足高级用户的需求。

6.2 交互模式

Hermes 支持多种交互模式:交互式聊天(CLI 模式,提供类似 ChatGPT 的终端界面,支持快捷键、斜杠命令、皮肤主题等);单次查询(通过 hermes chat -q 执行单次任务,适合脚本集成和 CI/CD 管道);后台任务(通过 cronjob 工具执行长期运行的任务);网关消息(在 Telegram、Discord 等消息平台中交互);IDE 集成(通过 ACP 服务器协议与 VS Code 等 IDE 集成)。

6.3 斜杠命令系统

Hermes 提供了丰富的斜杠命令系统,让用户可以在会话中执行各种操作:/model 切换模型不退出会话、/retry 重新发送消息、/undo 撤销对话轮次、/compress 手动压缩上下文以节省 token、/rollback 回滚文件系统到检查点、/goal 设置长期目标让代理在多轮对话中持续追求、/skill 临时加载技能、/voice 切换语音模式、/yolo 跳过危险命令确认等。斜杠命令系统支持自动补全,所有命令的注册表集中管理,确保 CLI、Telegram 菜单、Slack 映射等所有消费者的一致性。

七、高级特性

7.1 配置文件系统(Profiles)

配置文件系统允许用户运行多个完全独立的 Hermes 实例,每个实例拥有独立的配置、会话、技能和记忆。这对于需要隔离工作环境的场景非常有用——例如,个人使用一个配置文件,团队项目使用另一个。配置文件可以通过 clone 快速创建,也可以导出为 tar.gz 进行迁移。

7.2 定时任务(Cron)

Hermes 内置了完整的定时任务调度器,支持灵活的调度语法(30m、every 2h、0 9 * * * 或 ISO 时间戳)、技能预加载、模型覆盖、工作目录指定、多平台分发等。定时任务可以用于日常报告生成、数据监控、内容汇总等场景,将 AI Agent 从被动响应升级为主动服务的模式。

7.3 Webhook 与 MCP

Hermes 支持 Webhook 订阅,允许外部系统通过 HTTP 请求触发代理任务。同时,Hermes 原生支持 MCP(Model Context Protocol)服务器,可以连接第三方 MCP 服务来扩展工具集。Hermes 既可以作为 MCP 客户端使用外部服务,也可以作为 MCP 服务器供其他 AI 工具调用——这种双向 MCP 支持在 Agent 框架中并不常见。

7.4 安全与隐私

Hermes 在安全方面做了多层次的防护。第一层是秘密信息脱敏——自动检测并脱敏工具输出中的 API Key、令牌等敏感信息,防止泄露到会话上下文中。第二层是命令审批流——危险命令(如 rm -rf)在执行前需要用户确认,支持智能模式(低风险自动批准、高风险提示)。第三层是 PII 脱敏——在网关消息中可启用用户 ID 哈希和手机号脱敏。第四层是可插拔记忆引擎——用户可以选择记忆后端的存储位置和策略,完全掌控数据隐私。

八、性能与扩展性

8.1 上下文压缩

长会话是 Agent 系统面临的核心挑战之一。Hermes 内置了自适应上下文压缩机制,当上下文使用率达到 50% 阈值时自动触发压缩,将压缩目标定在 20%。压缩策略是选择性的——优先压缩工具调用历史,保留关键的用户指令和代理回复。用户也可以通过 /compress 命令手动触发压缩。

8.2 子代理委派

对于复杂任务,Hermes 支持将子任务委派给独立的子代理。子代理拥有完全隔离的上下文和工具,不会污染主代理的 token 预算。批量委派模式支持最多 3 个子代理并行工作,大大提升了复杂项目的处理效率。子代理结果以摘要形式返回,避免中间数据充斥主代理的上下文窗口。

8.3 插件系统

Hermes 的插件系统允许社区贡献者扩展框架的功能。插件可以添加新的工具、命令、记忆后端和平台适配器。插件管理通过 hermes plugins 命令完成,支持安装、列表和移除操作。

九、应用场景与使用案例

Hermes Agent 的应用场景非常广泛:

  • 软件开发:代码编写、调试、代码审查、重构、文档生成、CI/CD 管理。Hermes 的终端工具提供了完整的开发环境交互能力。通过 worktree 模式(-w 参数),多个代理可以并行工作在同一个项目的不同分支上。
  • 系统管理:服务器配置、监控、日志分析、自动化运维脚本编写和执行。agent 可以 SSH 到远程服务器执行操作并返回结果。
  • 研究与分析:网页搜索、论文研读、数据抓取和分析、报告生成。跨会话记忆使得长期研究项目可以持续追踪进展。
  • 内容创作:博客文章、社交媒体内容、营销文案、翻译和本地化。技能系统可以保存特定的创作风格和流程。
  • 数据科学:数据清洗、特征工程、模型训练、可视化、实验记录。代码执行和文件工具完美适配数据科学工作流。
  • 智能家居:通过与 Home Assistant 集成控制物联网设备。
  • 个人助理:日程管理、邮件处理、信息收集、定时提醒。网关平台让助理服务触手可及。

十、在 AI Agent 生态中的定位

Hermes Agent 在当前的 AI Agent 生态中占据着独特的位置。与 Claude Code 和 Codex CLI 相比,Hermes 最大的优势在于其开放性和可扩展性。

特性Hermes AgentClaude CodeCodex CLI
开源许可MIT 完全开源闭源开源
模型提供商20+ 提供商仅 Anthropic仅 OpenAI
持久记忆跨会话保留
技能积累自我进化
跨平台网关15+ 平台仅 CLI仅 CLI
配置文件隔离多 Profile
定时任务内置 Cron
MCP 支持服务端+客户端客户端
Webhook支持

从对比中可以看出,Hermes 是功能最全面的 Agent 框架。它不是简单地将 LLM 封装成一个聊天界面,而是一个完整的 AI 代理操作系统——具备持久化记忆、程序化知识、跨平台通信、任务调度和多代理协作等企业级特性。

十一、局限与挑战

尽管 Hermes Agent 功能强大,但它也面临一些挑战:

  • 学习曲线:丰富的功能意味着一定的学习成本。新手需要花时间了解工具系统、技能系统和配置选项。好在交互式向导和内置的文档系统大大降低了入门门槛。
  • 终端依赖:虽然 Hermes 支持多平台网关,但完整的工具能力(特别是 terminal 工具)需要在终端环境中运行,这使得它在纯聊天场景下的能力受限。
  • token 消耗:长时间运行的 Agent 会话会产生大量的 token 消耗。上下文压缩机制缓解了这个问题,但重度用户仍需要关注 API 使用量。
  • 生态成熟度:相比 Claude Code 背后 Anthropic 的商业支持和 Codex CLI 背后 OpenAI 的品牌效应,Hermes 的开源社区仍在成长中。但 Nous Research 团队的持续投入和活跃的社区贡献正在快速缩小差距。
  • Windows 支持:虽然 Hermes 支持 Windows,但部分 POSIX 特性的差异(如信号处理、文件权限等)可能导致偶尔的兼容性问题。项目文档中专门列出了 Windows 特有的注意事项。

十二、未来发展展望

Hermes Agent 的发展方向令人期待。从项目路线图和社区讨论中可以窥见几个趋势:

  • 多模态增强:进一步强化图像、视频、音频等多模态内容的处理能力,让 agent 能够理解更丰富的信息形式。
  • 更深的 IDE 集成:通过 ACP 协议和 MCP 服务器,实现与更多开发环境的无缝集成,成为开发者日常工具箱的核心组件。
  • 技能生态:技能注册中心正在发展,社区贡献的技能将使 Hermes 的知识库快速增长。技能集市的概念将使知识共享像应用商店一样便捷。
  • 企业级特性:看板系统、配置文件隔离、审计日志等特性使 Hermes 越来越适合企业部署。多租户支持和角色权限管理也在规划中。
  • 边缘部署:通过本地模型支持和轻量级架构,Hermes 正在向边缘设备延伸。未来可能在树莓派等低功耗设备上运行轻量级 agent 服务。

总结

Hermes Agent 是 Nous Research 打造的一款令人印象深刻的开源 AI Agent 框架。它的设计理念超越了简单的聊天机器人或编程助手,而是构建了一个完整的、可扩展的、自学习的 AI 代理操作系统。提供商无关的设计、持久记忆、技能积累、跨平台网关和多代理协作等特性,使其在当前的 AI Agent 生态中独树一帜。

对于开发者而言,Hermes Agent 提供了一个强大的生产力工具——它可以在你的终端中编写代码、在消息平台上回答问题、在服务器上执行运维任务、在定时触发下生成报告。对于团队而言,Hermes 的看板系统和配置文件隔离支持多人协作的工作流。对于企业而言,Hermes 的安全机制、审计日志和可扩展架构提供了合规部署的基础。

更重要的是,Hermes 的开源精神和活跃的社区正在推动 AI Agent 技术的民主化。任何人都可以下载、使用、修改和扩展它。随着技能积累和社区贡献的持续增长,Hermes Agent 的潜力将不断释放,成为 AI Agent 时代不可或缺的基础设施。

如果你还没有尝试过 Hermes Agent,现在就是最好的时机。只需一条命令即可开始你的 AI Agent 之旅。

项目地址:https://github.com/NousResearch/hermes-agent
官方文档:https://hermes-agent.nousresearch.com/docs/

(全文完)

OpenAI GPT-OSS 开源模型系列深度解读:120B 与 20B 两款模型的架构、性能与行业影响

2025年8月5日,OpenAI 正式发布了 gpt-oss(GPT Open Source Series)开源权重语言模型系列,这是自 2019 年 GPT-2 以来,OpenAI 首次向公众开放语言模型权重。这一举措标志着 OpenAI 在开源战略上的重大转向,也引发了人工智能行业的广泛关注。本文将深度剖析该系列的两款模型——gpt-oss-120bgpt-oss-20b,从架构设计、技术参数、性能表现、开源生态和行业影响等维度进行全面解读。

一、背景:OpenAI 的开源之路

回顾 OpenAI 的历史,这家公司曾以开放为名。2019 年,OpenAI 开源了 GPT-2 模型,但此后随着 GPT-3、GPT-4、o1、o3 等一系列闭源模型的发布,OpenAI 逐渐转向了 API-only 的商业模式。与之形成鲜明对比的是,Meta 的 LLaMA 系列、Mistral AI 的系列模型、中国的 DeepSeek 和通义千问等开源模型在社区中蓬勃发展,形成了强大的开源生态。

进入 2025 年,开源大模型的性能已经逼近甚至在某些领域超越了闭源模型。DeepSeek-V3 以 671B 总参数的 MoE 架构震惊业界,LLaMA 3.1 405B 展现了密集模型的上限。在这样的竞争压力下,OpenAI 的开源转向既是战略选择,也是市场必然。

gpt-oss 系列包含两款模型:gpt-oss-120b(117B 总参数)和 gpt-oss-20b(21B 总参数)。两者均采用 MoE(混合专家)Transformer 架构,并使用 Apache 2.0 许可协议发布,这意味着它们可以自由用于商业用途、修改和再分发。

二、模型架构详解

2.1 整体架构设计

两款 gpt-oss 模型共享相同的架构 DNA,均基于 MoE Transformer 架构。MoE 的核心思想是:将模型划分为多个专家子网络,每个输入 token 只激活其中一部分专家,实现总参数大、激活参数小的高效推理。核心组件包括:注意力机制(交替密集注意力和局部带状稀疏注意力,滑动窗口 128)、分组查询注意力 GQA(分组大小 8)、旋转位置编码 RoPE(支持 YaRN 扩展到 128K 上下文)、SwiGLU 激活函数(带数值裁剪)、RMSNorm 归一化、MXFP4 4-bit 量化(MoE 权重)+ BF16 激活精度,以及 Sink Attention 稳定长序列推理。

2.2 两款模型参数对比

指标gpt-oss-120bgpt-oss-20b
总参数量117B21B
每 token 激活参数量5.1B3.6B
Transformer 层数36 层24 层
总专家数128 个32 个
每 token 激活专家数4 个4 个
词表大小201,088201,088
最大上下文长度128K tokens128K tokens
单卡推理显存80GB (H100)16GB
推理精度MXFP4 + BF16MXFP4 + BF16

gpt-oss-120b 虽然总参数量高达 117B,但由于 MoE 的稀疏激活特性,每次推理仅激活 5.1B 参数(约 4.4%),可在单张 H100 GPU 上运行。gpt-oss-20b 仅需 16GB 显存,消费级 GPU 即可部署。

2.3 MoE 路由机制

gpt-oss 使用 Top-K 门控机制(K=4),每个 token 经过门控网络计算所有专家得分,选择最高的 4 个进行前向传播。120b 模型的 128 个专家相当于 128 个不同的知识领域,这种细粒度分配使模型在总参数量巨大的情况下保持高效推理。

三、性能评测与基准测试

3.1 性能定位

根据 OpenAI 官方评测:gpt-oss-120b 核心推理基准接近 o4-mini 水平;gpt-oss-20b 常见基准与 o3-mini 相当。两款模型均具备链式推理、工具调用、结构化输出、全参数微调和安全对齐等能力。在 HealthBench 安全评测上甚至超越了 o1 和 GPT-4o。

基准测试评测内容表现
AIME 2025数学推理前沿水平
GPQA Diamond科学问答接近闭源推理模型
Tau-BenchAgent 工具使用超越同类开源模型
HealthBench医疗与安全超越 o1、GPT-4o
SWE-bench软件工程表现优秀

四、开源生态与工具链

4.1 开源范围

OpenAI 不仅开源了模型权重,还发布了完整配套工具链:openai/gpt-oss 主仓库(推理实现、工具调用客户端、评估套件,已获 20,000+ 星标)、openai/harmony(Harmony 聊天格式渲染器,Rust 实现)、openai/gpt-oss-safeguard(安全防护工具集)。

4.2 推理框架支持

gpt-oss 获得主流推理框架广泛支持:Hugging Face Transformers、vLLM、Ollama、LM Studio、Apple Metal、PyTorch/Triton 参考实现,以及 AWS 官方集成。

4.3 许可协议

Apache 2.0 许可允许商业使用、修改和再分发,包含明确的专利授权条款,是企业级部署的首选许可。其商业友好度远超 LLaMA 的 Llama 3 Community License 和 Mistral 的 Research License。

五、部署与使用实践

硬件需求:120b 模型需单张 H100(80GB)或 MI300X;20b 模型仅需 16GB 显存(RTX 4090/4080、Mac 等均可)。可通过 Hugging Face Transformers 或 Ollama 一键部署。需注意 gpt-oss 使用 Harmony 聊天格式而非 ChatML。

六、与其他开源模型对比

模型总参数量激活参数上下文许可协议
gpt-oss-120b117B5.1B128KApache 2.0
gpt-oss-20b21B3.6B128KApache 2.0
DeepSeek-V3671B37B128KMIT
LLaMA 3.1 405B405B405B128KLlama 3 Community
Qwen 2.5 72B72B72B128KApache 2.0

gpt-oss 的激活参数远低于密集模型,可支持更高并发。Apache 2.0 许可商业友好度最高。

七、行业影响与未来展望

7.1 开源格局的重塑

gpt-oss 的发布标志着 OpenAI 从封闭走向开放的战略转折,是 2025 年 AI 领域最具标志性的事件之一。它迫使所有开源和闭源参与者不断提升能力,推动了整个 AI 生态的技术进步。推理能力上的突破使开源模型首次在复杂推理任务上与闭源模型正面竞争。

7.2 对企业用户的价值

数据隐私保护、成本控制、完全定制和法律合规是企业用户的核心收益。特别是金融、医疗、法律等对数据隐私要求极高的行业,20b 模型的低门槛部署使本地化高性能推理成为现实。

7.3 对开发者与研究者

科研可复现性、Agent 开发基座、微调实验平台和模型蒸馏等方向均受益于 gpt-oss 的开源。原生工具调用和结构化输出使其成为构建 AI Agent 的理想选择。

7.4 局限与挑战

Harmony 格式增加迁移成本;中文能力弱于原生中文优化的模型(如 Qwen、DeepSeek);MoE 推理优化依赖社区生态;中文社区生态仍在成长中。

八、总结

OpenAI gpt-oss 系列的开源发布是 AI 史上的里程碑事件。gpt-oss-120b 以 117B 总参数、仅 5.1B 激活参数实现了接近 o4-mini 的推理能力;gpt-oss-20b 以 21B 参数、16GB 显存门槛将前沿推理能力带到开发者桌面。Apache 2.0 许可扫清了商业应用障碍。我们正在见证一个更加开放、更加多元的 AI 未来。

(全文完)

OpenClaw 安装使用教程

最近一段时间,OpenClaw横空出世,又带动一波AI的热潮。它让我们和AI的聊天对话,变成了一个可执行的数字员工,大大便利和改变我们的工作生活和学习方式。以前我们需要招聘文案、策划、销售、程序员、测试、设计、售前、售后等等,现在会发现你可以用数字军团来帮你完成这些工作。今天小编就来说说如何在个人的电脑上安装和使用OpenClaw。

1、认识OpenClaw

在安装之前我们需要了解一下是什么是OpenClaw。

OpenClaw是一款由奥地利程序员Peter Steinberger于2025年底发起并开源的个人AI智能体(Agent)框架,昵称“小龙虾”。‌它核心定位为“真正能执行任务的AI”,旨在让AI从被动对话转向能主动操作计算机、执行复杂任务的“数字员工”。它解决了传统 AI “只说不做” 的痛点。

它仅用三个月便在GitHub上斩获超20万星标,发展非常迅猛,非常受人欢迎。当OpenClaw出现不久,国内的几家大厂也都迅速跟进,像字节的ArkClaw、腾讯的QClaw、阿里云的CoPaw、智谱AutoClaw、猎豹的EasyClaw、月之暗面的KimiClaw、MaxClaw等等。这些大厂基本都是收费的,一个月几十到几百块不等。如果我们可以自己在自己的电脑上安装和部署OpenClaw,就可以省下这部分银子。

其核心能力:
◦ 自主执行:解析指令 → 拆解任务 → 调用工具(文件 / 浏览器 / 命令 / API)→ 反馈结果。
◦ 本地优先:数据与执行全在本地,不上传云端,隐私可控。
◦ 模型无关:支持Deepseek、GPT、Claude、混元、通义及本地 llama 等多种大模型。
◦ 模块化扩展:通过 “技能(Skills)” 插件扩展能力,可接入飞书、钉钉、微信等渠道。

2、安装部署OpenClaw

2.1、安装部署要求

•系统:Win 10/11(WSL2) / macOS 10.15+ / Linux(CentOS8+、Ubuntu22+)

•硬件:CPU ≥ 2核 / 内存 ≥ 8GB / SSD ≥ 40GB 

•依赖:必须安装Node.js 22.18+ 

另外,需要获取核心大模型的API Key。

•推荐平台:Deepseek/阿里百炼/Kimi (月之暗面)/MiniMax/GLM 

•安全警示:API Key 等同于登录密码,请务必妥善保管,切勿公开泄露 

2.2、在Windows系统下安装

在 Windows 环境推荐使用 PowerShell 或 WSL2 

执行命令:powershell -c "irm https://openclaw.ai/install.ps1 | iex" 

然后执行:openclaw --version  终端打印出版本号即表示安装成功

2.3、在MacOS & Linux系统下安装

在 macOS / Linux 系统中直接打开自带的 Terminal 终端。

执行命令:curl -fsSL https://openclaw.ai/install.sh | bash 

然后执行:openclaw --version  终端打印出版本号即表示安装成功

2.4、配置

安装好之后,启动配置命令:openclaw onboard --install-daemon 初始化 

核心配置清单:

● 风险确认:输入 y 确认知悉风险 

● 新手模式:推荐选择 QuickStart 

● 配置密钥:粘贴已获取的 API Key 

● 模型选择:deepseek (示例) 

● 启动方式:推荐 Hatch in TUI 

其他命令:

openclaw dashboard 打开浏览器 

openclaw gateway start 开启网关 

openclaw channels add 添加通道 

3、开启你的AI数字化员工

OpenClaw安装成功后的截图如下:

OpenClaw能干什么:

a、每天早上8点把当天的天气和10条时事热点新闻发送给我

b、搜集当前市场最好卖的5个商品给我 

c、帮我监控xx股票,当股票价格30分钟内 振幅超过1%时,通知我

d、开发一个xx产品项目

e、日程安排:安排5天的港澳游计划 

f、帮我整理桌面

g、帮我下载某个视频

等等,不一而足。

Qwen3.6越狱版火了

Qwen3.6越狱版火了

AI芯片神经网络示意图
图源:AI生成示意

2026年5月下旬,一款名为 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 的模型在开源社区迅速走红,被称为"越狱版"Qwen3.6。

这个版本移除了官方模型的内容审查限制,同时保留了完整的推理和代码能力。对于本地部署玩家来说,这意味着真正的"模型自由"。

核心数据对比

模型 参数量 激活参数 显存门槛 开源/收费 特点
Qwen3.6-35B-A3B Uncensored 35B 3B 6G 开源 无审查、支持视觉
Qwen3.6 官方版 35B 3B 6G 开源 有内容审核
GPT-5.5(闭源参考) 未公开 未公开 API only 收费 原生Agent能力
Llama 4 Ultra 约400B 约50B 24G+ 开源 多模态强化

MoE架构:35B参数,6G显存可跑

这个模型的核心优势是 MoE(混合专家)架构

总参数35B,但每次推理只激活约3B参数。计算量大幅降低,显存占用约等于一个7B模型。

实测RTX 4060 Laptop(8G显存)跑IQ2_M量化版本,输出速度约10 tokens/s。用llama.cpp原生引擎,配--jinja参数,中文输出稳定。

无审查的意义

"越狱"在这里指移除模型的安全对齐限制。

官方版遇到某些提示词会拒绝回答。这个版本直接输出,不做内容审核。适合本地研究、安全测试、以及需要模型"说实话"的场景。

值得强调的是,这个版本的能力没有打折。实测代码生成、多模态识图、长文本推理都保持高水准。

视觉能力

模型支持多模态,需要额外下载mmproj文件。启动llama-server时挂载该文件,即可支持图片分析、OCR、截图问答。

如何使用

  1. 下载llama.cpp(根据显卡选CUDA版本)
  2. 下载对应量化版本的GGUF模型文件
  3. 双击run.bat,浏览器打开http://127.0.0.1:8080
  4. 支持OpenAI API格式,可接入OpenWebUI、Cherry Studio等工具

显存对照:6-8G用IQ2_M,12-16G用IQ4_NL(推荐),24G以上用Q4_K_P。

模型链接

  • HuggingFace:https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive[1]
  • GitHub Qwen3.6官方:https://github.com/QwenLM/Qwen3.6[2]
  • llama.cpp项目:https://github.com/ggerganov/llama.cpp[3]

本文涉及模型仅用于本地研究和安全测试,请勿用于非法用途。

550 亿参数只激活 55 亿:NVIDIA 刚发布的美国最强开源模型,怎么免费用


NVIDIA 在 Computex 2026 上放了一颗炸弹。

550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。

Artificial Analysis 排行榜:美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B(39 分)。

这不是一个能在你笔记本上跑的模型。但它可以免费用。

这个模型是什么

Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。

550B 总参数。约 55B 激活参数(~10% 激活率)。MoE + Mamba-Transformer 混合架构。

定位:前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。

开源权重。可自行部署。也可通过 API 使用。

为什么值得关注

因为它是美国第一个真正威胁中国开源模型的前沿级开源产品

之前的格局:

  • 前沿闭源:OpenAI、Anthropic、Google
  • 前沿开源:几乎被 DeepSeek、Qwen、Kimi 统治

现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。

Artificial Analysis 智力排名对比:

模型
得分
来源
Nemotron 3 Ultra
48
NVIDIA(美国)
GLM 5.1
49+
智谱(中国)
Kimi K2.6
~50
月之暗面(中国)
Gemma 4 31B
39
Google(美国)
Nemotron 3 Super
36
NVIDIA(美国)

Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。

想了想,NVIDIA 不只是在做模型。它在证明一件事:美国的开源力量不只有 Meta。

它能做什么

几个核心能力:

  • Agent 工作流:NVIDIA 专门为 Agent 场景优化
  • 编码:SWE-bench 级别的代码能力
  • 长 context 推理:支持超长输入
  • 指令跟随:精准执行复杂多步指令
  • 知识工作:研究、分析、报告生成

社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说,这个速度惊人。得益于 MoE 的 10% 激活率。

谁能跑这个模型

老实说,大多数人跑不动。

本地部署最低要求:

  • 2× A100 80GB(FP8)→ 够跑
  • 4× DGX Spark(128GB 统一内存×4 = 512GB)→ 够跑
  • 1× H100 80GB → 激进量化下可能行

消费级显卡?不行。550B 即使量化到 4bit 也需要 ~140GB。

但你不需要本地跑。

先看完成后的样子


Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。

cost?接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。

前提条件

  • 已安装 Hermes Agent
  • 有终端环境
  • OpenRouter 账户 或 NVIDIA NIM API Key

阶段一:通过 OpenRouter 接入

第一步:获取 API Key

访问 openrouter.ai[1]。登录。创建 API Key。

第二步:配置 Hermes

hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选:nvidia/nemotron-3-ultra

或编辑 ~/.hermes/config.yaml

model:
  provider: openrouter
  default: nvidia/nemotron-3-ultra

第三步:验证

hermes
> 用 Rust 写一个高性能的 JSON parser,支持流式解析

验证:回复质量高,代码完整,有注释。

阶段二:通过 NVIDIA NIM 接入

NVIDIA 自己的推理平台。可能有免费额度。

第四步:注册 NVIDIA NIM

访问 build.nvidia.com[2]。注册开发者账户。获取 API Key。

第五步:配置 Hermes

model:
  provider: custom
  default: nemotron-3-ultra
  api_base: https://integrate.api.nvidia.com/v1
  context_length: 131072

在 ~/.hermes/.env 中添加:

NVIDIA_API_KEY=nvapi-你的key

验证:正常回复。检查 NIM 控制台确认 token 用量。

阶段三:本地部署(高端硬件)

如果你有 2× A100 80GB 或多台 DGX Spark:

第六步:下载权重

huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
  --local-dir ~/models/nemotron-ultra

第七步:用 vLLM 或 TensorRT-LLM 部署

python -m vllm.entrypoints.openai.api_server \
  --model ~/models/nemotron-ultra \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization fp8 \
  --port 8000

第八步:Hermes 指向本地

model:
  provider: custom
  default: nemotron-ultra
  api_base: http://localhost:8000/v1
  context_length: 131072

本地部署的好处:无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。

阶段四:Smart Routing 策略

最佳实践不是全用 Ultra。是按任务分配。

# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换

# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra(付费但便宜)
# 本地隐私任务 → Qwen3.6-35B-A3B(本地)

这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。

完整流程一览


第一次做的建议

先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。

不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。

如果你之前用 DeepSeek V4 Flash,切到 Ultra 最直观的感受是:复杂任务的成功率明显提高。但简单任务的区别不大。

容易踩的坑

坑 1:以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。

坑 2:混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano(30B-A3B)能本地跑。Super(120B-A12B)需要 DGX Spark。Ultra(550B-A55B)需要 A100 集群。

坑 3:context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。

坑 4:忽略了 Smart Routing 的重要性Ultra 不便宜(虽然比 Claude 便宜很多)。用 /model 在会话中灵活切换,才是正确用法。

收尾

NVIDIA 用 Nemotron 3 Ultra 证明了一件事:

美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。

它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力,但只花零头的钱。

本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。

从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。


原文链接:https://mp.weixin.qq.com/s/ywnCDCv2xktPX3PjetkiUw