AIInfrastructureLLM

当 Token 成为商品,AI 基础设施会怎么变化?

姚戈··原文链接
收录于 2026/6/19 14:33:16

核心观点

  • 现状的鸿沟:8 卡顶级 GPU 服务器理论上每秒能生成约 1000 Token,但主流推理框架解码速度只有几十 Token/s——存在 10 倍以上的性能鸿沟。
  • 这道鸿沟来自推理链路里的"执行间隙":Kernel 微秒级启动调度、CPU/GPU 同步开销、KV Cache 在 HBM/DRAM/NVMe 之间反复搬运。算力消耗在等待和搬运里,客户为这道鸿沟买单
  • 因此智能工业化不能只追求更大的算力规模或更低的 Token 单价,关键在于:同样的能源和算力投入,能不能生产出更多有效 Token;同样的 Token 消耗,能不能完成更多业务任务
  • 九章云极给出的答案:从"资源计量"转向"智能计量",建立 DCU + 专业 Token 双度量体系。

关键论据:从 Token 到"有效 Token"

Token 只是基础单位,不是价值单位。一个有效 Token 必须同时满足:

  1. 请求成功
  2. 质量达标
  3. 时延达标
  4. 能进入真实业务流程

企业真正关心的不是 Token 单价,而是任务完成成本。基于此,作者把专业 Token 分三档:

  • 消费级 Token:智能社会的"基础电力"
  • 企业级 Token:封装行业知识与合规逻辑,企业买的是效率、风控、决策支持
  • 前沿级 Token:面向高复杂度科研

九章云极聚焦在企业级与前沿级。

关键论据:训练工厂 + Token 工厂

  • 训练工厂:把通用模型加工成专业模型。靠领域数据、强化学习、精调、评测反馈和持续优化,把模型能力压进具体行业/场景/任务。决定 Token 的质量基础
  • Token 工厂:把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。包含稳定 API、权限、版本、密钥、计量计费、SLA、成本控制。决定 Token 的商品化交付

度量上:训练工厂用 DCU 度量算力投入,Token 工厂用专业 Token 度量智能产出。DCU 把异构算力(NVIDIA / AMD / 昇腾)抽象成统一计算单位,"像采购电力一样采购算力"。

数据与案例:Alaya NeW Cloud 3.0 四层架构

  1. Aladdin(最前端):通过 IDE 插件、CLI、SDK、Skills Hub,把算力推到开发者和 Agent 手边,缩短"从算力资源到业务任务"的距离。
  2. 训练工厂(第二层):解决专业能力来源。已沉淀 50+ 主流大模型(DeepSeek、GLM、Kimi、Minimax、Qwen 等)+ 100+ 精调版本,覆盖金融、制造、政务、科研。
  3. Token 工厂(第三层):服务封装 + 推理优化。通过量化、动态路由、KV 缓存、弹性伸缩,为不同任务匹配合适模型/推理路径。
  4. Inference OS + DingoFS Connector:管理 KV cache、会话状态、prefill/decode 拆分调度、跨节点状态迁移;DingoFS Connector 让 KV cache 跨请求、跨节点复用——对 Agent 多轮长上下文场景尤其关键。
  5. 全栈智算底座:DingoStack 承接算力网络,DingoFS / DingoDB 承接数据/模型/状态/缓存。再叠加算电协同:根据空闲度、电力价格、能源供给,把任务调度到合适的时间和地点运行。

趋势判断

  • 竞争正向中间层下沉。训练、推理、缓存、调度、计量、计费、SLA 不再是后台工程,而是直接影响每次任务的成本/成功率/稳定性。
  • "Result as a Service" 的压力从 SaaS 平台延伸到 AI 基础设施。供应商必须回答:"客户买的 Token 能在多大程度上转化成可验证的业务结果?"
  • 最终的竞争不在单模型/单芯片/单次推理,而在能源、算力、存储、网络、模型、调度之间的协同效率

Zero 锐评

站得住的部分:

  • "10 倍鸿沟"和"有效 Token"这两个切入点是真问题。任何做过推理服务部署的人都知道——理论 TFLOPS 和实际吞吐之间的差距,绝大部分确实被花在了 Kernel 启动、KV 搬运、prefill/decode 不平衡上。把"任务完成成本"作为度量替代"Token 单价",符合企业采购的真实逻辑。
  • KV cache 跨请求/跨节点复用 = Agent 时代的关键基建,这点判断准确。多轮对话和长文档场景里,重复 prefill 的浪费是实打实的;vLLM、SGLang、Mooncake 都在这条赛道上卷。

有漏洞的部分:

  • "DCU 像电力一样采购算力" 这个类比讲了至少十年了——从 AWS EC2 vCPU、阿里云计算单元、到现在的 DCU,每一代都在喊"统一计量",但没有一家真把异构算力的差异抹平。NVIDIA H100 的有效算力和昇腾 910 的有效算力,跑同一个模型差距巨大,套个 DCU 单位只是会计游戏。
  • "专业 Token 三分级"是营销框架而非技术框架。消费级/企业级/前沿级的边界由谁定?合规和准确率的 SLA 怎么保证?文章给了概念但没给可验证标准。
  • 全文都是 "我们提出"、"我们认为",没有一个对比基准:训练工厂训出的精调模型,相比 OpenAI 的 GPT-5 / 国内 Qwen3 直接调用,TCO 到底低多少?案例只点了几个行业名词。InfoQ 这篇基本上是发布会通稿。
  • "算电协同" 听起来很硬核,但跨地域调度的延迟和数据合规问题没碰。把训练任务挪到电价低谷区可行,但推理任务对延迟敏感,挪不了。

对前端/工程师的实际启发:

  • Agent 应用层要把 KV cache 友好性当作一等公民:Prompt 设计上 system prompt + few-shot 前置、动态部分尽量后置;多轮对话尽量让前缀稳定,触发 prefix caching;这是真金白银的成本差。
  • 任务路由比模型选型更重要:简单分类/抽取丢给小模型甚至蒸馏版,复杂推理才走大模型。前端做 AI 应用时,不要傻乎乎地全部 gpt-5 走到底——上层做个 router/cascade 能把成本砍掉一个数量级。
  • 关注 inference 层的可观测性:成功率、p95 时延、单任务 Token 消耗、retry 率——这些指标才是 Result as a Service 时代要监控的,不是 QPS。
  • 不要被"AI 工厂"这种宏大叙事忽悠:作为 PC 前端 / 应用工程师,你能影响的边界在 prompt、cache 策略、降级方案、UX 容错。底座厂商讲他们的故事,咱们做好自己的工程化。