openJiuwen 社区又上新：JiuwenSwarm 给 Harness 装上「后训练」

引子：Agent 落地卡在 Harness 这道坎

Agent 的调优正在遇到一个结构性问题：模型本身已经有相对成熟的训练与后训练范式，但模型外部的 Harness，仍主要依赖人工调试。从 RLHF 到 DPO 再到 GRPO，模型这一侧的后训练方法论已经卷出了一整套范式，模型表现不行可以"训"。而 Harness 这一侧，至今还在靠人手工调。

而 Harness 的调优，包含着大量琐碎、重复、耗时的脏活累活。开发者只能沿着执行轨迹往回看，再手动调试。单次看只是调试成本，累积起来就会变成 Agent 落地的工程瓶颈。

最近，华为支持的 openJiuwen 社区开源了 "Auto Harness" —— 一个由评测驱动、覆盖 Harness 全栈组件的端到端自动优化框架。这是 JiuwenSwarm 在 Agent "后训练"拼图上补上的关键一块：模型后训练优化的是模型本身，Auto Harness 则试图让模型外部的执行系统，也能在任务反馈中持续进化。

先对齐概念：为什么要 Auto Harness

如果把 LLM 比作大脑，Harness 就是大脑外面那一整套"让它能干活的东西" —— 它怎么知道现在该调哪个工具、怎么记住上一轮发生了什么、什么时候该停下来想一想、什么时候该让另一个 Agent 接手。

所有这些"能干活"的逻辑，都不在模型权重里，而在 Harness 里。公式即：

Agent = Model + Harness

听起来挺顺，问题是这两边的进化速度完全不对等。模型一侧有完整的后训练方法论，Harness 一侧至今还在靠人手工调：

一个 prompt 改一个词，Agent 行为大变样
一个工具描述里少写一句"请优先使用"，模型就会自己瞎搞
一个 rail 钩子加错位置，整个 loop 就转不下去了
更要命的是，这套手感几乎没法复用 —— 换一个场景、垂域、客户，前一套调好的 Harness 基本得推倒重来

这就是 Auto Harness 要解决的事。

双层架构：Meta Harness + Expert Harness

openJiuwen 把 Harness 拆成了两层：

底层是所有 Agent 共用的通用底座（Meta Harness）
上层是各种可插拔的领域扩展包（Expert Harness）

Auto Harness 让 Agent 自己去优化这两层 —— 你给它一个目标，它就自己生成评测题、自己跑、自己看哪里不行、自己改、再自己验证。整个循环里都不需要人去调研、评测、验证。

Demo 一：Meta Harness 优化 —— Agent 自己抄了 Claude Code 的作业

程序员一条指令：

/auto-harness run --pipeline optimize_meta_harness 调研当前和 Claude Code 在上下文压缩特性上的差异和不足，吸收提升自己能力

之后 Agent 完整跑完四步：

第一步：调研。启动 Meta Harness 优化的 Pipeline，自己去搜 Claude Code 公开的实现细节，翻文档、读源码、扒 commit history，学习 Claude Code 是如何做上下文压缩的。

第二步：制定优化计划。对比当前系统与 Claude Code 在上下文压缩方面的关键差异，然后制定具体的优化任务：如增加上下文压缩的可控性，允许用户通过 hook 拦截或监控压缩过程，提升系统扩展性。

第三步：动手改。但不是直接动主干，而是开了一个独立的 git worktree，在里面新加上下文压缩 Rail、修改触发逻辑、补单元测试。改完之后跑 CI，跑挂了自己回头修，修到 CI 通过为止。

第四步：提 PR。它没自己合主干，而是给仓库提了一个 PR，讲清楚这次改了什么、为什么这么改、验证结果是什么。

整个过程拆下来，等价于"自动竞品分析师 + 自动 PR 工程师"：24 小时盯着业界，看到好东西自己抄回来，抄完还自己测、自己写 PR 说明、自己交。

更狠的是，这套机制还可以定时跑。挂一个任务：每 48 小时自动盯一次某个对标产品的更新、自动评测、自动改、自动提 PR —— 人睡觉的时候，它在帮你吸收业界最佳实践。

Demo 二：Expert Harness —— 给 Agent 配上领域专家

如果说第一个 demo 是"自己改基座代码"，这一个则是"自己学新能力"。比如想让当前 Agent 的办公能力更强：

/auto-harness run --pipeline optimize_expert_harness 提升一下你自己的办公能力：

擅长做图文并茂、逻辑清晰的 PPT

熟练进行 word 操作

熟练处理财务相关的 excel 表格

所有生成的文件要做敏感信息检查，这是硬性约束，在写入文件前强制检查

接收指令后，JiuwenSwarm 启动 Expert Harness Pipeline。Agent 跑了一遍自评，诊断结果挺诚实：PPT 排版混乱、Excel 公式错误率高、Word 磕磕绊绊，敏感信息检查缺失。

然后开始设计优化计划，创建 PPT 生成、Excel、Word 处理、敏感信息检查等多条优化点，然后开始并行处理。加工具、加技能、加 Rail、跑测试，全跑通之后生成 Harness Package，直接在 Web 端热加载激活，Agent 不用重启，下一秒就能用。

味道和前一个 case 完全不一样：前者是动基座、改代码、提 PR；这一个是"给 Agent 装上领域专家能力" —— 需要什么能力告诉它，它自己学、自己测、热生效。

而且这些"专家"可以叠加挂载到同一个 Agent：同时挂办公专家、内容生产专家、合规专家都行。来什么任务，调哪几个。

这套设计最聪明的地方

Auto Harness 的两种优化路径，对应两个 pipeline：一个改基座，一个生成扩展包。但不管走哪条 pipeline，核心都是同一个机制：评测驱动的闭环优化。

跑评测 → 看哪里不行 → 想怎么改（规划）→ 实施修改 → 再跑评测

Meta Harness 优化在此基础上增加了定时任务（流程前）、业界调研（流程前）、提交 PR（流程后）。

最值得提的一点是 Meta Harness 和 Expert Harness 的双层优化架构 —— 既克制又实用：

基座层每次改动后需要提交 PR 评审、合不合入需要人来决定
扩展层则是跑完即生成优化包、热加载、即插即用，该灵活的地方足够灵活

这种边界感是同类工作里普遍处理得不太好的 —— 很多论文/Demo 一上来就追求"全自动"的故事，但真要往生产环境里放，没有这条边界，没人敢用。

下一步：Swarm Post-Training

单 Agent 的 Auto Harness 搞定了，随之而来的是 Swarm 群体优化。openJiuwen 社区已经设计好了下一步：Swarm Post-Training。

单个 Agent 再聪明也有上限。一个写代码的 Agent 再强，对于大型工程也很吃力；一个做调研的 Agent 再厉害，也难以全面覆盖复杂的尽调。真正的答案在多 Agent 协同里 —— Swarm 里每个 Agent 的 Harness 随群体协同自动优化。

Agent 的整个后训练范式，从"模型变强 + 单兵变强 + 团队变强"，会被串成完整一条线：

Model Post-training：让模型自己变强
Auto Harness：让单个 Agent 的 Harness 自己变强
Swarm Post-Training：让一群 Agent 的协作自己变强

这三件事如果都能各自跑起来、还能互相打通，那 Agent 这件事的"工程化天花板"就被整体顶上去了。

行业意义：把"手艺"变成"工程"

回到这次更新本身，Auto Harness 的意义不只是新增了一个功能，而是把 Agent 落地中的一个关键问题推到了台前：当模型能力逐渐接近，真正拉开差距的，往往是模型外部那套 Harness。

同一个模型，放在不同的上下文管理、工具编排、权限控制、错误恢复和任务验证体系里，最终表现可能完全不同。过去，调 Harness 更像一门手艺，依赖工程师经验，也依赖大量试错。Auto Harness 试图把这件事变成一套可评测、可迭代、可回滚的工程流程。

这也是 openJiuwen 持续推进的方向。此前社区已经提出 Coordination Engineering，关注多智能体如何分工、协作和沉淀经验；这一次 Auto Harness 则进一步补上了单个 Agent 如何自我优化的问题。

从单个 Agent 的 Harness 自动进化，到多个 Agent 的协同优化，JiuwenSwarm 想要构建的，不只是更强的 Agent，而是一套可持续进化的 Agent 工程体系，引领 Agentic AI 时代的 AgentOS 标杆。

上手试用

参考 JiuwenSwarm 快速开始：https://openjiuwen.com/jiuwenswarm#quick-start

安装启动 JiuwenSwarm 后：

pip install jiuwenswarm-tui
jiuwenswarm-tui
# 启动后输入 /auto-harness 触发

结语

Auto Harness 的核心价值在于"标准化"。在 Agent 工程化普遍仍处于经验驱动、手工调优阶段的当下，把 Harness 调优变成由评测驱动的闭环，意味着 Agent 优化的工程范式可以脱离个体工程师的经验积累，转化为团队、组织、社区可复用的资产。这是 Agent 走向真正大规模落地必须迈过的一道门槛。openJiuwen 下一步的 Swarm Post-Training，也值得继续关注。