全球首个完全AI编写的训练框架来了，速度反超英伟达

英伟达最难被替代的，从来不是一张GPU，而是CUDA背后十几年积累出来的软件生态。现在，面壁智能想用AI来压缩这十几年。

核心突破

ForgeTrain框架概况：

全球首个全部由AI编写、零人介入、面向大模型训练基础设施的生产级训练框架
已在华为昇腾系列上完成MiniCPM5-1B的训练验证，整体速度提升10%
MiniCPM5-1B预训练耗时3-5天，MiniCPM4-0.5B在英伟达GPU上预训练用了两天
训练结果在人评和机评上与原有训练框架保持一致

三阶段构建方法：

从现有训练框架采集关键数据形成评测标准和Harness
从评测Harness构建二进制一致的训练框架版本（已完成多机多卡版本，比Megatron快10%）
解除二进制一致的限制，迭代优化到超越Megatron的性能

AI写代码，人来加Harness

核心理念：

ForgeTrain通过搭建专用Harness，让AI在闭环环境中不断满足评测指标
人类不再参与代码编写和中间修改，仅在最后进行验收
目前主要覆盖框架和算子层面，算子调参尚未完全交给AI
在内存约束方面，AI自己写的框架显存使用甚至低于Megatron

可靠性验证：

可以连续运行数天并完成模型训练
在MiniCPM上已完成从框架生成到实际训练再到效果验证的闭环
内部8B模型验证已完成，接下来推进MoE等更复杂模型

当写代码没有成本，软件就应"现场锻造"

行业背景：

高质量互联网数据正在被快速消耗
GPU、数据中心、电力等基础设施越来越紧张
继续靠"堆资源"推动模型进化成本越来越高，边际收益下降

Forge Engineering理念：

传统软件工程追求大型通用框架，因为人类写代码、维护代码成本高
当AI写代码成本接近于零时，可以为每种具体需求重新生成最适合的代码
不必把不该强行的东西捏合在一起，而是为不同模型、不同芯片、不同训练任务"现场锻造"定制化系统

性能优势：

Megatron需要覆盖更广模型和场景，必须在通用性和性能之间权衡
ForgeTrain可以为特定模型从零生成贴合需求的框架，获得更细粒度优化空间
比英伟达Megatron快10%的关键原因：针对某一模型类型做深度定制优化

"到年底能把国产算力软件全做一遍"

国产算力生态追赶新思路：

英伟达生态好用是因为长期积累了大量开发者和工程实践
国产算力生态起步较晚，若仍依靠人类开发者一点点打磨生态，追赶难度很高
TVM等开源编译框架难以覆盖不同算法与不同芯片架构组合的无限优化方案
让AI成为大量开发者本身，持续优化训练框架、推理框架、算子、数据管线、工具链和工程细节

目标：

年底前把头部国产算力软件全做一遍
未来用同一套技术路线覆盖训练框架、推理框架、强化学习框架、数据管线和算法范式
适配国产算力、英伟达以及其他端侧芯片

Harness仍处蛮荒期，Forge的前提是成本

Harness定义：

把一个目标包装成一整套系统：环境、上下文、工具、任务流程和评分标准
将AI放入这个系统后，可以根据反馈不断完成任务、修正错误并提升能力

行业现状：

OpenClaw、Claude Code、Hermes Agent等都能被称为Harness，但目标不同
ForgeTrain的Harness是专用Harness，目标是让模型在垂直领域能力大幅增强
当前Harness行业整体仍处于蛮荒状态，不同团队的目标、方法、评测标准和技术路径都不同

Forge Engineering核心前提：

AI写代码的成本会快速下降
当代码生成变得足够便宜、足够快，软件工程可以不把所有需求都压进一个大而全的通用系统
为每个具体任务生成高度定制的软件系统

人机协作模式转变

从Human in the Loop到Human on the Loop：

Human in the Loop：AI在跑一些环节，但一些环节有人看着
Human on the Loop：AI已经自主运转，人只盯着系统里有没有问题，有问题再调整

组织影响：

研发范式和人与人之间的协作关系已经在改变
随着AI在更多研发任务中成为主体，形式上的组织变化会在合适的时机自然发生

核心要点

全球首创：ForgeTrain是全球首个完全由AI编写、零人介入的生产级训练框架
性能优势：在华为昇腾上速度比Megatron快10%，且训练结果一致性验证通过
核心理念：提出"Forge Engineering锻造工程"，为每个任务现场生成定制化框架
技术路径：通过专用Harness让AI在闭环环境中迭代优化
战略意义：为国产算力软件生态追赶英伟达提供新思路，用AI替代大量开发者打磨生态
年度目标：年底前把头部国产算力软件全部重写一遍
行业趋势：Harness成为AI研发关键，从Human in the Loop转向Human on the Loop

技术细节

已验证场景：

MiniCPM5-1B训练（华为昇腾）
MiniCPM4-0.5B训练（英伟达GPU）
内部8B模型验证

待推进方向：

MoE等更复杂模型
推理框架、强化学习框架
数据管线和算法范式
多芯片适配（国产算力、英伟达、端侧芯片）

当前覆盖层面：

✅ 框架层
✅ 算子层
⏳ 算子调参（尚未完全交给AI）

引用

"英伟达最难被替代的，从来不是一张GPU，而是CUDA背后十几年积累出来的软件生态。"

"AI研发AI的价值就在于给定资源下的研发效率提升。人类工程师写代码、跑实验、调框架、做数据管线，往往需要数天、数周甚至数月；而AI在部分任务上可以把效率提升10倍到100倍。"

"Forge Engineering的核心：并非让AI继续写越来越庞大的通用框架，而是让AI像工匠一样，为不同模型、不同芯片、不同训练任务'现场锻造'一套高度定制化的软件系统。"

"到年底能把头部国产算力软件全做一遍。"

本文为AI前线整理，不代表平台观点，未经许可禁止转载。