AIInfra创业

狂烧 Token 却赚不到钱?这家清华系 AI Infra 独角兽已破解算力成本难题

冬梅(InfoQ)··原文链接
收录于 2026/6/20 21:27:52

文章正文

核心要点

  • Token 已从技术统计指标变成支撑业务落地的生产资源:当 AI 进入客服、编程、办公、知识库、Agent 系统时,一次用户请求可能触发数十到上百次模型调用,成本、延迟、稳定性、调度成为新的关键词。
  • 决定 Token 服务质量的不是模型本身,而是推理基础设施:模型只是参数集合,推理引擎、量化方案、缓存策略、并发调度才是 Token 单价之下的真实差异。
  • 清程极智定位为"系统软件层",三款核心产品对应 Token 流转的三个环节:八卦炉(训练/微调)、赤兔(国产芯片推理引擎)、AI Ping(多模型服务智能路由)。
  • 国产算力的瓶颈不只在芯片:许多国产芯片不原生支持 FP4/FP8,赤兔通过软件层做低位宽计算映射,让国产卡跑主流大模型。
  • Token 市场是个"黑盒":同一个 DeepSeek 在不同平台体验差异巨大,问题往往出在量化(FP8 被压成 INT4)、缓存命中率、并发调度上,但用户感知不到。

详细内容

1. 140 万亿 Token 之后,中国 AI 开始卷成本

企业真正购买的不是抽象的"大模型能力",而是可持续调用的 Token 服务。当 Token 进入万亿级生产环境后,瓶颈从模型本身迁移到模型如何被运行、调度、稳定且低成本交付。资本逻辑也随之从"基础模型公司"切到"系统软件 / 推理优化 / 算力调度 / 服务路由"。

2. 被忽视的推理层正在决定企业 AI 成本

清程极智团队识别的三大问题:

  • 缓存利用率差异:头部平台 KV Cache 命中率高,中小平台几乎无缓存优化,标价相近但综合成本可相差数倍。
  • 慢响应:传统 99.9% 可用率口径不能反映"几秒应答 vs. 几十秒甚至几分钟"的真实体验。
  • 工程化标准不足:API 接口、返回格式、计费、故障切换互不兼容,企业多模型集成代价高。

3. 赤兔推理引擎:国产卡 + 主流模型的桥梁

  • 主流大模型依赖 FP4/FP8 低位宽计算,但许多国产芯片不原生支持。
  • 行业常见两条退路:用 BF16(精度好但成本高)、用 INT8(省资源但掉精度)。
  • 赤兔走第三条路——软件层映射 FP4/FP8 计算能力到国产芯片。
  • 关键数据:DeepSeek-V3 满血版部署,传统方案需 4 台 8 卡服务器,赤兔优化后可在 1 台服务器上完成;DeepSeek-V4 满血版可单机部署,且只有原生 FP4 才能保留完整模型能力,INT8 会损失能力。
  • 选择 100% 自研而非基于 vLLM/SGLang 打补丁——团队认为现有框架围绕 CUDA/英伟达硬件设计,结构上无法发挥国产硬件特性("烤面包"的系统改不出"蒸馒头")。

4. 八卦炉:训练侧能力是起点

针对国产智算集群中并行策略、通信优化、显存管理、算子加速、集群稳定性的高性能计算难题。八卦炉离模型生产更近,赤兔离 Token 生产更近。

5. AI Ping:Token 服务的"导航系统"

  • 全国多节点 7×24 小时监控数百个模型接口,建立实时服务质量数据库。
  • 企业可按"最低成本 / 最低延迟 / 最高吞吐"等策略,由系统自动选择当下最优模型与服务商。
  • 实测数据:智能路由可使企业 AI 调用成本下降超过 37%、服务吞吐提升超过 90%、响应延迟下降约 20%。

关键数据/表格

项目数据
中国市场每日 Token 调用量(2024 年初)0.1 万亿
中国市场每日 Token 调用量(2026 年 3 月)约 140 万亿
增幅(中国)约 1400 倍
全球同期 Token 增幅约 300 倍
公司成立时间2023 年底
团队来源清华大学计算机系高性能计算研究所 / 清华超算队
已完成融资天使轮、Pre-A、Pre-A+
投资方中科创星、中金资本、考拉基金、联想创投、北京市人工智能产业基金、上海国资等
核心产品八卦炉(训练/微调)、赤兔(推理引擎)、AI Ping(智能路由)
赤兔 DeepSeek-V3 满血版部署4 台 8 卡 → 1 台服务器
AI Ping 智能路由收益成本 -37%+ / 吞吐 +90%+ / 延迟 -20%
涉及开源框架对比vLLM、SGLang(清程极智不沿用,选择 100% 自研)

我的看法(编辑判断)

  1. "成本下降 37%"这个数字得拆开看——它是基于"智能路由在多家服务商间动态比价"的结果,本质上是套利,并非自家技术降低了 Token 单价。一旦头部模型厂商把价格统一拉齐、或者关停 API 直供中间商,这套路由价值就会快速衰减。这是个软件层壳,不是真正的成本结构创新。

  2. "100% 自研推理引擎"的故事性大于工程性。vLLM/SGLang 已经在做 PagedAttention、连续批处理、分布式 KV Cache,全球开发者社区在持续迭代。从零写引擎并适配数十款国产芯片,意味着几十人团队要追上整个开源社区——技术上可能在某一具体国产芯片上跑得更快,但维护负担、Bug 修复速度、新模型架构跟进(MoE、SSM、Diffusion-LM)能不能跟上是真问题。"烤面包 vs 蒸馒头"是好比喻,但商业上更像是赌"国产算力 + 国产模型"长期闭环。

  3. DeepSeek-V3 从 4 台 8 卡到 1 台服务器的对比没有公开未指明的硬件型号、batch size、并发吞吐、首 token 延迟。在 AI Infra 领域,"满血版单机部署"通常以低并发或低吞吐为代价,类似 ktransformers 这类项目早就能做到——单纯的"机器数对比"对工程师没有说服力,要看 throughput per dollar 和 P99 延迟才行。

  4. AI Ping 的智能路由模式护城河浅。这本质是"AI 时代的 CDN/调度器",技术门槛在监控数据积累,但任何一家云厂商(火山、阿里、腾讯)都能用更低成本复制——他们直接掌握底层服务质量数据。第三方做路由的最终归宿,要么被收购,要么沦为给云厂商打工的数据来源。

  5. "Token 黑盒"的叙事确实戳中行业痛点,但解决路径未必是"买我的路由"。更可能的趋势是模型厂商主动公开运行规格(精度、量化方案、缓存策略),就像 SLA 标准化一样。也就是说,AI Ping 卖的是"市场不透明"这件事——一旦行业自律或监管推动信息披露,这门生意的根基就被釜底抽薪。清程极智真正的长期价值,应该押注在赤兔的国产芯片底层栈上,而不是路由层。