AI模型Transformer注意力机制长上下文SubquadraticSSA

上下文窗口限制被打破:Subquadratic推出了一个1200万Token的窗口

Frederic Lardinois(平川 译)··原文链接
收录于 2026/5/27 09:38:46

背景:Transformer的二次方瓶颈

2026年,每个前沿模型都在宣传至少提供100万Token的上下文窗口。但在MRCR v2(多参考检索基准测试实验室报告)中,最佳模型GPT-5.5得分仅74.0%,Claude Opus 4.7得分32.2%。实际上,几乎没有模型能够很好利用所有这些信息。

核心问题:注意力成本与上下文长度呈二次方增长关系,输入翻倍会使工作量增加四倍。这是自2017年以来Transformer模型面临的根本性限制。RAG、代理分解、混合模型架构等方法都是为了解决这个问题而做出的权衡。

Subquadratic的突破

迈阿密初创公司Subquadratic于5月5日推出其首个模型——一个能够处理1200万Token窗口的模型,计划很快提供5000万上下文窗口的模型。

该公司拥有11名博士研究人员,其SSA(Subquadratic Selective Attention)架构在计算和内存方面均与上下文长度呈线性增长关系:

  • 性能表现

    • 100万Token规模下,运行速度比密集注意力快52倍
    • 1200万Token"大海捞针"检索任务中,准确率达92.1%
    • MRCR v2测试得分83分,比OpenAI高出9分
    • SWE-bench测试得分82.4%,超越Opus 4.6(81.42%)和Gemini 3.1 Pro(80.6%)
    • 128K RULER测试得分97.1(Opus 4.6为94.8)
  • 成本优势

    • 128K时速度提升7.2倍
    • 1M时速度提升52.2倍

之前的技术方案对比

  1. 固定模式稀疏注意力(如Longformer)

    • 让每个Token只关注滑动窗口
    • 问题:只有相关信息在附近时有效
  2. 状态空间模型(Mamba、Mamba-2、RWKV、RetNet)

    • 用递归状态(压缩所有历史内容)替换全对比
    • 问题:压缩是有损的,Nvidia研究发现纯Mamba-2在MMLU和电话簿查找任务上落后于Transformer
  3. 混合架构(Jamba、Kimi Linear、Qwen3-Next、Nvidia Nemotron v3)

    • 保证大多数层效率,保留几个密集注意力层用于检索
    • 问题:32K Token时成本下降1/3,1000万Token时仍只下降1/3,因为保留的密集层仍需执行O(n²)工作量
  4. DeepSeek Sparse Attention(DSA)

    • 闪索引器将注意力路由到选定键
    • 获得ACL 2025最佳论文奖
    • 问题:筛选步骤本身的时间复杂度为二次方

SSA的不同之处

SSA做到了DSA试图完成的工作,但避免了索引器陷阱。选择是内容依赖的

  • 对于任何给定查询,模型根据查询和键中实际包含内容挑选重要关系
  • 选择机制本身不会呈二次方增长
  • 提供了"缩放法则"优势,而非混合模型的"标量效率"

产品与融资

产品线

  • API:暴露1200万Token窗口和SubQ Code
  • CLI代理:基于同一模型构建
  • SubQ Search:深度研究工具
  • 运行在neoclouds上,而非主要云服务商(避免高昂成本)

融资情况

  • 已筹集2900万美元,估值5亿美元
  • 投资者包括前软银愿景基金合伙人Javier Villamizar和Tinder联合创始人Justin Mateen
  • 公司原名Aldea,转型前专注于语音模型研发

未来计划

  • 第四季度推出5000万Token上下文窗口模型
  • 为企业提供免费培训工具(不开源权重)

警示故事

Magic.dev在2024年8月宣布10亿Token上下文窗口模型,声称有1000倍效率优势,筹集超5亿美元。但截至2026年初,没有公开证据表明LTM-2-mini在Magic之外的地方被使用。

关键信息

  • 技术核心:SSA架构实现线性复杂度的选择性注意力机制
  • 核心优势:突破Transformer二次方成本瓶颈,实现真正的长上下文处理
  • 性能亮点:多个基准测试中超越GPT-5.5、Opus 4.6、Gemini 3.1 Pro
  • 应用场景:代码生成(SubQ Code)、深度研究(SubQ Search)
  • 商业进展:Beta产品已推出,企业培训工具计划中

原文链接https://thenewstack.io/subquadratic-12-million-context-window/