AI模型Transformer注意力机制长上下文SubquadraticSSA

上下文窗口限制被打破：Subquadratic推出了一个1200万Token的窗口

Frederic Lardinois（平川译）·2026-05-25·原文链接

收录于 2026/5/27 09:38:46

背景：Transformer的二次方瓶颈

2026年，每个前沿模型都在宣传至少提供100万Token的上下文窗口。但在MRCR v2（多参考检索基准测试实验室报告）中，最佳模型GPT-5.5得分仅74.0%，Claude Opus 4.7得分32.2%。实际上，几乎没有模型能够很好利用所有这些信息。

核心问题：注意力成本与上下文长度呈二次方增长关系，输入翻倍会使工作量增加四倍。这是自2017年以来Transformer模型面临的根本性限制。RAG、代理分解、混合模型架构等方法都是为了解决这个问题而做出的权衡。

Subquadratic的突破

迈阿密初创公司Subquadratic于5月5日推出其首个模型——一个能够处理1200万Token窗口的模型，计划很快提供5000万上下文窗口的模型。

该公司拥有11名博士研究人员，其SSA（Subquadratic Selective Attention）架构在计算和内存方面均与上下文长度呈线性增长关系：

性能表现：
- 100万Token规模下，运行速度比密集注意力快52倍
- 1200万Token"大海捞针"检索任务中，准确率达92.1%
- MRCR v2测试得分83分，比OpenAI高出9分
- SWE-bench测试得分82.4%，超越Opus 4.6（81.42%）和Gemini 3.1 Pro（80.6%）
- 128K RULER测试得分97.1（Opus 4.6为94.8）
成本优势：
- 128K时速度提升7.2倍
- 1M时速度提升52.2倍

之前的技术方案对比

固定模式稀疏注意力（如Longformer）
- 让每个Token只关注滑动窗口
- 问题：只有相关信息在附近时有效
状态空间模型（Mamba、Mamba-2、RWKV、RetNet）
- 用递归状态（压缩所有历史内容）替换全对比
- 问题：压缩是有损的，Nvidia研究发现纯Mamba-2在MMLU和电话簿查找任务上落后于Transformer
混合架构（Jamba、Kimi Linear、Qwen3-Next、Nvidia Nemotron v3）
- 保证大多数层效率，保留几个密集注意力层用于检索
- 问题：32K Token时成本下降1/3，1000万Token时仍只下降1/3，因为保留的密集层仍需执行O(n²)工作量
DeepSeek Sparse Attention（DSA）
- 闪索引器将注意力路由到选定键
- 获得ACL 2025最佳论文奖
- 问题：筛选步骤本身的时间复杂度为二次方

SSA的不同之处

SSA做到了DSA试图完成的工作，但避免了索引器陷阱。选择是内容依赖的：

对于任何给定查询，模型根据查询和键中实际包含内容挑选重要关系
选择机制本身不会呈二次方增长
提供了"缩放法则"优势，而非混合模型的"标量效率"

产品与融资

产品线：

API：暴露1200万Token窗口和SubQ Code
CLI代理：基于同一模型构建
SubQ Search：深度研究工具
运行在neoclouds上，而非主要云服务商（避免高昂成本）

融资情况：

已筹集2900万美元，估值5亿美元
投资者包括前软银愿景基金合伙人Javier Villamizar和Tinder联合创始人Justin Mateen
公司原名Aldea，转型前专注于语音模型研发

未来计划：

第四季度推出5000万Token上下文窗口模型
为企业提供免费培训工具（不开源权重）

警示故事

Magic.dev在2024年8月宣布10亿Token上下文窗口模型，声称有1000倍效率优势，筹集超5亿美元。但截至2026年初，没有公开证据表明LTM-2-mini在Magic之外的地方被使用。

关键信息

技术核心：SSA架构实现线性复杂度的选择性注意力机制
核心优势：突破Transformer二次方成本瓶颈，实现真正的长上下文处理
性能亮点：多个基准测试中超越GPT-5.5、Opus 4.6、Gemini 3.1 Pro
应用场景：代码生成（SubQ Code）、深度研究（SubQ Search）
商业进展：Beta产品已推出，企业培训工具计划中

原文链接：https://thenewstack.io/subquadratic-12-million-context-window/