openJiuwen 社区又上新:JiuwenSwarm 给 Harness 装上「后训练」
引子:Agent 落地卡在 Harness 这道坎
Agent 的调优正在遇到一个结构性问题:模型本身已经有相对成熟的训练与后训练范式,但模型外部的 Harness,仍主要依赖人工调试。从 RLHF 到 DPO 再到 GRPO,模型这一侧的后训练方法论已经卷出了一整套范式,模型表现不行可以"训"。而 Harness 这一侧,至今还在靠人手工调。
而 Harness 的调优,包含着大量琐碎、重复、耗时的脏活累活。开发者只能沿着执行轨迹往回看,再手动调试。单次看只是调试成本,累积起来就会变成 Agent 落地的工程瓶颈。
最近,华为支持的 openJiuwen 社区开源了 "Auto Harness" —— 一个由评测驱动、覆盖 Harness 全栈组件的端到端自动优化框架。这是 JiuwenSwarm 在 Agent "后训练"拼图上补上的关键一块:模型后训练优化的是模型本身,Auto Harness 则试图让模型外部的执行系统,也能在任务反馈中持续进化。
先对齐概念:为什么要 Auto Harness
如果把 LLM 比作大脑,Harness 就是大脑外面那一整套"让它能干活的东西" —— 它怎么知道现在该调哪个工具、怎么记住上一轮发生了什么、什么时候该停下来想一想、什么时候该让另一个 Agent 接手。
所有这些"能干活"的逻辑,都不在模型权重里,而在 Harness 里。公式即:
Agent = Model + Harness
听起来挺顺,问题是这两边的进化速度完全不对等。模型一侧有完整的后训练方法论,Harness 一侧至今还在靠人手工调:
- 一个 prompt 改一个词,Agent 行为大变样
- 一个工具描述里少写一句"请优先使用",模型就会自己瞎搞
- 一个 rail 钩子加错位置,整个 loop 就转不下去了
- 更要命的是,这套手感几乎没法复用 —— 换一个场景、垂域、客户,前一套调好的 Harness 基本得推倒重来
这就是 Auto Harness 要解决的事。
双层架构:Meta Harness + Expert Harness
openJiuwen 把 Harness 拆成了两层:
- 底层是所有 Agent 共用的通用底座(Meta Harness)
- 上层是各种可插拔的领域扩展包(Expert Harness)
Auto Harness 让 Agent 自己去优化这两层 —— 你给它一个目标,它就自己生成评测题、自己跑、自己看哪里不行、自己改、再自己验证。整个循环里都不需要人去调研、评测、验证。
Demo 一:Meta Harness 优化 —— Agent 自己抄了 Claude Code 的作业
程序员一条指令:
/auto-harness run --pipeline optimize_meta_harness调研当前和 Claude Code 在上下文压缩特性上的差异和不足,吸收提升自己能力
之后 Agent 完整跑完四步:
第一步:调研。启动 Meta Harness 优化的 Pipeline,自己去搜 Claude Code 公开的实现细节,翻文档、读源码、扒 commit history,学习 Claude Code 是如何做上下文压缩的。
第二步:制定优化计划。对比当前系统与 Claude Code 在上下文压缩方面的关键差异,然后制定具体的优化任务:如增加上下文压缩的可控性,允许用户通过 hook 拦截或监控压缩过程,提升系统扩展性。
第三步:动手改。但不是直接动主干,而是开了一个独立的 git worktree,在里面新加上下文压缩 Rail、修改触发逻辑、补单元测试。改完之后跑 CI,跑挂了自己回头修,修到 CI 通过为止。
第四步:提 PR。它没自己合主干,而是给仓库提了一个 PR,讲清楚这次改了什么、为什么这么改、验证结果是什么。
整个过程拆下来,等价于"自动竞品分析师 + 自动 PR 工程师":24 小时盯着业界,看到好东西自己抄回来,抄完还自己测、自己写 PR 说明、自己交。
更狠的是,这套机制还可以定时跑。挂一个任务:每 48 小时自动盯一次某个对标产品的更新、自动评测、自动改、自动提 PR —— 人睡觉的时候,它在帮你吸收业界最佳实践。
Demo 二:Expert Harness —— 给 Agent 配上领域专家
如果说第一个 demo 是"自己改基座代码",这一个则是"自己学新能力"。比如想让当前 Agent 的办公能力更强:
/auto-harness run --pipeline optimize_expert_harness提升一下你自己的办公能力:
- 擅长做图文并茂、逻辑清晰的 PPT
- 熟练进行 word 操作
- 熟练处理财务相关的 excel 表格
- 所有生成的文件要做敏感信息检查,这是硬性约束,在写入文件前强制检查
接收指令后,JiuwenSwarm 启动 Expert Harness Pipeline。Agent 跑了一遍自评,诊断结果挺诚实:PPT 排版混乱、Excel 公式错误率高、Word 磕磕绊绊,敏感信息检查缺失。
然后开始设计优化计划,创建 PPT 生成、Excel、Word 处理、敏感信息检查等多条优化点,然后开始并行处理。加工具、加技能、加 Rail、跑测试,全跑通之后生成 Harness Package,直接在 Web 端热加载激活,Agent 不用重启,下一秒就能用。
味道和前一个 case 完全不一样:前者是动基座、改代码、提 PR;这一个是"给 Agent 装上领域专家能力" —— 需要什么能力告诉它,它自己学、自己测、热生效。
而且这些"专家"可以叠加挂载到同一个 Agent:同时挂办公专家、内容生产专家、合规专家都行。来什么任务,调哪几个。
这套设计最聪明的地方
Auto Harness 的两种优化路径,对应两个 pipeline:一个改基座,一个生成扩展包。但不管走哪条 pipeline,核心都是同一个机制:评测驱动的闭环优化。
跑评测 → 看哪里不行 → 想怎么改(规划)→ 实施修改 → 再跑评测
Meta Harness 优化在此基础上增加了定时任务(流程前)、业界调研(流程前)、提交 PR(流程后)。
最值得提的一点是 Meta Harness 和 Expert Harness 的双层优化架构 —— 既克制又实用:
- 基座层每次改动后需要提交 PR 评审、合不合入需要人来决定
- 扩展层则是跑完即生成优化包、热加载、即插即用,该灵活的地方足够灵活
这种边界感是同类工作里普遍处理得不太好的 —— 很多论文/Demo 一上来就追求"全自动"的故事,但真要往生产环境里放,没有这条边界,没人敢用。
下一步:Swarm Post-Training
单 Agent 的 Auto Harness 搞定了,随之而来的是 Swarm 群体优化。openJiuwen 社区已经设计好了下一步:Swarm Post-Training。
单个 Agent 再聪明也有上限。一个写代码的 Agent 再强,对于大型工程也很吃力;一个做调研的 Agent 再厉害,也难以全面覆盖复杂的尽调。真正的答案在多 Agent 协同里 —— Swarm 里每个 Agent 的 Harness 随群体协同自动优化。
Agent 的整个后训练范式,从"模型变强 + 单兵变强 + 团队变强",会被串成完整一条线:
- Model Post-training:让模型自己变强
- Auto Harness:让单个 Agent 的 Harness 自己变强
- Swarm Post-Training:让一群 Agent 的协作自己变强
这三件事如果都能各自跑起来、还能互相打通,那 Agent 这件事的"工程化天花板"就被整体顶上去了。
行业意义:把"手艺"变成"工程"
回到这次更新本身,Auto Harness 的意义不只是新增了一个功能,而是把 Agent 落地中的一个关键问题推到了台前:当模型能力逐渐接近,真正拉开差距的,往往是模型外部那套 Harness。
同一个模型,放在不同的上下文管理、工具编排、权限控制、错误恢复和任务验证体系里,最终表现可能完全不同。过去,调 Harness 更像一门手艺,依赖工程师经验,也依赖大量试错。Auto Harness 试图把这件事变成一套可评测、可迭代、可回滚的工程流程。
这也是 openJiuwen 持续推进的方向。此前社区已经提出 Coordination Engineering,关注多智能体如何分工、协作和沉淀经验;这一次 Auto Harness 则进一步补上了单个 Agent 如何自我优化的问题。
从单个 Agent 的 Harness 自动进化,到多个 Agent 的协同优化,JiuwenSwarm 想要构建的,不只是更强的 Agent,而是一套可持续进化的 Agent 工程体系,引领 Agentic AI 时代的 AgentOS 标杆。
上手试用
参考 JiuwenSwarm 快速开始:https://openjiuwen.com/jiuwenswarm#quick-start
安装启动 JiuwenSwarm 后:
pip install jiuwenswarm-tui jiuwenswarm-tui # 启动后输入 /auto-harness 触发
结语
Auto Harness 的核心价值在于"标准化"。在 Agent 工程化普遍仍处于经验驱动、手工调优阶段的当下,把 Harness 调优变成由评测驱动的闭环,意味着 Agent 优化的工程范式可以脱离个体工程师的经验积累,转化为团队、组织、社区可复用的资产。这是 Agent 走向真正大规模落地必须迈过的一道门槛。openJiuwen 下一步的 Swarm Post-Training,也值得继续关注。