上下文窗口限制被打破:Subquadratic推出了一个1200万Token的窗口
背景:Transformer的二次方瓶颈
2026年,每个前沿模型都在宣传至少提供100万Token的上下文窗口。但在MRCR v2(多参考检索基准测试实验室报告)中,最佳模型GPT-5.5得分仅74.0%,Claude Opus 4.7得分32.2%。实际上,几乎没有模型能够很好利用所有这些信息。
核心问题:注意力成本与上下文长度呈二次方增长关系,输入翻倍会使工作量增加四倍。这是自2017年以来Transformer模型面临的根本性限制。RAG、代理分解、混合模型架构等方法都是为了解决这个问题而做出的权衡。
Subquadratic的突破
迈阿密初创公司Subquadratic于5月5日推出其首个模型——一个能够处理1200万Token窗口的模型,计划很快提供5000万上下文窗口的模型。
该公司拥有11名博士研究人员,其SSA(Subquadratic Selective Attention)架构在计算和内存方面均与上下文长度呈线性增长关系:
-
性能表现:
- 100万Token规模下,运行速度比密集注意力快52倍
- 1200万Token"大海捞针"检索任务中,准确率达92.1%
- MRCR v2测试得分83分,比OpenAI高出9分
- SWE-bench测试得分82.4%,超越Opus 4.6(81.42%)和Gemini 3.1 Pro(80.6%)
- 128K RULER测试得分97.1(Opus 4.6为94.8)
-
成本优势:
- 128K时速度提升7.2倍
- 1M时速度提升52.2倍
之前的技术方案对比
-
固定模式稀疏注意力(如Longformer)
- 让每个Token只关注滑动窗口
- 问题:只有相关信息在附近时有效
-
状态空间模型(Mamba、Mamba-2、RWKV、RetNet)
- 用递归状态(压缩所有历史内容)替换全对比
- 问题:压缩是有损的,Nvidia研究发现纯Mamba-2在MMLU和电话簿查找任务上落后于Transformer
-
混合架构(Jamba、Kimi Linear、Qwen3-Next、Nvidia Nemotron v3)
- 保证大多数层效率,保留几个密集注意力层用于检索
- 问题:32K Token时成本下降1/3,1000万Token时仍只下降1/3,因为保留的密集层仍需执行O(n²)工作量
-
DeepSeek Sparse Attention(DSA)
- 闪索引器将注意力路由到选定键
- 获得ACL 2025最佳论文奖
- 问题:筛选步骤本身的时间复杂度为二次方
SSA的不同之处
SSA做到了DSA试图完成的工作,但避免了索引器陷阱。选择是内容依赖的:
- 对于任何给定查询,模型根据查询和键中实际包含内容挑选重要关系
- 选择机制本身不会呈二次方增长
- 提供了"缩放法则"优势,而非混合模型的"标量效率"
产品与融资
产品线:
- API:暴露1200万Token窗口和SubQ Code
- CLI代理:基于同一模型构建
- SubQ Search:深度研究工具
- 运行在neoclouds上,而非主要云服务商(避免高昂成本)
融资情况:
- 已筹集2900万美元,估值5亿美元
- 投资者包括前软银愿景基金合伙人Javier Villamizar和Tinder联合创始人Justin Mateen
- 公司原名Aldea,转型前专注于语音模型研发
未来计划:
- 第四季度推出5000万Token上下文窗口模型
- 为企业提供免费培训工具(不开源权重)
警示故事
Magic.dev在2024年8月宣布10亿Token上下文窗口模型,声称有1000倍效率优势,筹集超5亿美元。但截至2026年初,没有公开证据表明LTM-2-mini在Magic之外的地方被使用。
关键信息
- 技术核心:SSA架构实现线性复杂度的选择性注意力机制
- 核心优势:突破Transformer二次方成本瓶颈,实现真正的长上下文处理
- 性能亮点:多个基准测试中超越GPT-5.5、Opus 4.6、Gemini 3.1 Pro
- 应用场景:代码生成(SubQ Code)、深度研究(SubQ Search)
- 商业进展:Beta产品已推出,企业培训工具计划中
原文链接:https://thenewstack.io/subquadratic-12-million-context-window/