狂烧 Token 却赚不到钱？这家清华系 AI Infra 独角兽已破解算力成本难题

文章正文

核心要点

Token 已从技术统计指标变成支撑业务落地的生产资源：当 AI 进入客服、编程、办公、知识库、Agent 系统时，一次用户请求可能触发数十到上百次模型调用，成本、延迟、稳定性、调度成为新的关键词。
决定 Token 服务质量的不是模型本身，而是推理基础设施：模型只是参数集合，推理引擎、量化方案、缓存策略、并发调度才是 Token 单价之下的真实差异。
清程极智定位为"系统软件层"，三款核心产品对应 Token 流转的三个环节：八卦炉（训练/微调）、赤兔（国产芯片推理引擎）、AI Ping（多模型服务智能路由）。
国产算力的瓶颈不只在芯片：许多国产芯片不原生支持 FP4/FP8，赤兔通过软件层做低位宽计算映射，让国产卡跑主流大模型。
Token 市场是个"黑盒"：同一个 DeepSeek 在不同平台体验差异巨大，问题往往出在量化（FP8 被压成 INT4）、缓存命中率、并发调度上，但用户感知不到。

详细内容

1. 140 万亿 Token 之后，中国 AI 开始卷成本

企业真正购买的不是抽象的"大模型能力"，而是可持续调用的 Token 服务。当 Token 进入万亿级生产环境后，瓶颈从模型本身迁移到模型如何被运行、调度、稳定且低成本交付。资本逻辑也随之从"基础模型公司"切到"系统软件 / 推理优化 / 算力调度 / 服务路由"。

2. 被忽视的推理层正在决定企业 AI 成本

清程极智团队识别的三大问题：

缓存利用率差异：头部平台 KV Cache 命中率高，中小平台几乎无缓存优化，标价相近但综合成本可相差数倍。
慢响应：传统 99.9% 可用率口径不能反映"几秒应答 vs. 几十秒甚至几分钟"的真实体验。
工程化标准不足：API 接口、返回格式、计费、故障切换互不兼容，企业多模型集成代价高。

3. 赤兔推理引擎：国产卡 + 主流模型的桥梁

主流大模型依赖 FP4/FP8 低位宽计算，但许多国产芯片不原生支持。
行业常见两条退路：用 BF16（精度好但成本高）、用 INT8（省资源但掉精度）。
赤兔走第三条路——软件层映射 FP4/FP8 计算能力到国产芯片。
关键数据：DeepSeek-V3 满血版部署，传统方案需 4 台 8 卡服务器，赤兔优化后可在 1 台服务器上完成；DeepSeek-V4 满血版可单机部署，且只有原生 FP4 才能保留完整模型能力，INT8 会损失能力。
选择 100% 自研而非基于 vLLM/SGLang 打补丁——团队认为现有框架围绕 CUDA/英伟达硬件设计，结构上无法发挥国产硬件特性（"烤面包"的系统改不出"蒸馒头"）。

4. 八卦炉：训练侧能力是起点

针对国产智算集群中并行策略、通信优化、显存管理、算子加速、集群稳定性的高性能计算难题。八卦炉离模型生产更近，赤兔离 Token 生产更近。

5. AI Ping：Token 服务的"导航系统"

全国多节点 7×24 小时监控数百个模型接口，建立实时服务质量数据库。
企业可按"最低成本 / 最低延迟 / 最高吞吐"等策略，由系统自动选择当下最优模型与服务商。
实测数据：智能路由可使企业 AI 调用成本下降超过 37%、服务吞吐提升超过 90%、响应延迟下降约 20%。

关键数据/表格

项目	数据
中国市场每日 Token 调用量（2024 年初）	0.1 万亿
中国市场每日 Token 调用量（2026 年 3 月）	约 140 万亿
增幅（中国）	约 1400 倍
全球同期 Token 增幅	约 300 倍
公司成立时间	2023 年底
团队来源	清华大学计算机系高性能计算研究所 / 清华超算队
已完成融资	天使轮、Pre-A、Pre-A+
投资方	中科创星、中金资本、考拉基金、联想创投、北京市人工智能产业基金、上海国资等
核心产品	八卦炉（训练/微调）、赤兔（推理引擎）、AI Ping（智能路由）
赤兔 DeepSeek-V3 满血版部署	4 台 8 卡 → 1 台服务器
AI Ping 智能路由收益	成本 -37%+ / 吞吐 +90%+ / 延迟 -20%
涉及开源框架对比	vLLM、SGLang（清程极智不沿用，选择 100% 自研）

我的看法（编辑判断）

"成本下降 37%"这个数字得拆开看——它是基于"智能路由在多家服务商间动态比价"的结果，本质上是套利，并非自家技术降低了 Token 单价。一旦头部模型厂商把价格统一拉齐、或者关停 API 直供中间商，这套路由价值就会快速衰减。这是个软件层壳，不是真正的成本结构创新。
"100% 自研推理引擎"的故事性大于工程性。vLLM/SGLang 已经在做 PagedAttention、连续批处理、分布式 KV Cache，全球开发者社区在持续迭代。从零写引擎并适配数十款国产芯片，意味着几十人团队要追上整个开源社区——技术上可能在某一具体国产芯片上跑得更快，但维护负担、Bug 修复速度、新模型架构跟进（MoE、SSM、Diffusion-LM）能不能跟上是真问题。"烤面包 vs 蒸馒头"是好比喻，但商业上更像是赌"国产算力 + 国产模型"长期闭环。
DeepSeek-V3 从 4 台 8 卡到 1 台服务器的对比没有公开未指明的硬件型号、batch size、并发吞吐、首 token 延迟。在 AI Infra 领域，"满血版单机部署"通常以低并发或低吞吐为代价，类似 ktransformers 这类项目早就能做到——单纯的"机器数对比"对工程师没有说服力，要看 throughput per dollar 和 P99 延迟才行。
AI Ping 的智能路由模式护城河浅。这本质是"AI 时代的 CDN/调度器"，技术门槛在监控数据积累，但任何一家云厂商（火山、阿里、腾讯）都能用更低成本复制——他们直接掌握底层服务质量数据。第三方做路由的最终归宿，要么被收购，要么沦为给云厂商打工的数据来源。
"Token 黑盒"的叙事确实戳中行业痛点，但解决路径未必是"买我的路由"。更可能的趋势是模型厂商主动公开运行规格（精度、量化方案、缓存策略），就像 SLA 标准化一样。也就是说，AI Ping 卖的是"市场不透明"这件事——一旦行业自律或监管推动信息披露，这门生意的根基就被釜底抽薪。清程极智真正的长期价值，应该押注在赤兔的国产芯片底层栈上，而不是路由层。