不是更大模型，而是更大上下文：从百万到万亿 token 的一次范式迁移

2026-03-23

趋势判断

AI 的下一次跃迁，不靠把模型继续做大，而靠把“可用上下文”做大：从百万 token 走向万亿 token，把个人一生的记忆与整个互联网知识纳入同一个可检索、可推理的系统。决定胜负的是：谁能用工程化手段把海量信息筛选成“当下任务真正需要的那一小段”，并把这条推理链路做成工业流水线。

1）为什么“更大上下文”比“更大模型”更关键

模型能力在提升，但现实任务的难点往往不在“会不会推理”，而在“有没有足够的相关信息”。对人类来说，做决策依赖两类上下文：一是公共知识（世界发生了什么），二是个人记忆（我是谁、我经历过什么、我正在做什么）。当 AI 能把这两类上下文在同一套机制里调度起来，它才可能从“回答问题”升级为“持续完成任务”。

所以，核心不是把模型参数再堆一层，而是让系统能可靠地把“你的一生 + 全网”里最相关的内容拿出来，用得上、用得对。

2）从百万到万亿 token：全量注意力不现实，必须分层

很多人对“大上下文”的想象是：把所有信息一股脑塞进窗口里，模型自然就懂了。但全量注意力的代价会迅速失控。真正可扩展的路径是分层过滤：

先用轻量检索从万亿级信息里筛出候选（覆盖面优先）
再用更重的机制缩到可用规模（相关性优先）
最后把极少量“高相关片段”交给注意力做深理解（质量优先）

这意味着，未来的“上下文能力”不是一个开关，而是一整套从粗到细的流水线：检索负责覆盖，注意力负责理解。

3）智能体会放大一切：瓶颈会从模型迁移到工具链

当 AI 变成智能体，任务不再是一次性问答，而是持续数小时甚至数天的执行。推理量上去之后，端到端效率的主要瓶颈往往不在模型推理本身，而在它调用的工具：文件系统、数据库、接口、文档与表格 API——这些都是为人类速度设计的。

模型再快，如果工具链慢，整体也快不起来。于是“更大上下文”的工程挑战，必然延伸到工具链重写：让数据更快被读取、被索引、被调用，让智能体的动作不被外部系统拖慢。

4）能耗与延迟会把系统逼回物理学：别搬数据

推理极致优化后，一个反直觉事实会变得重要：很多场景下，真正昂贵的不是“算”，而是“搬”。数据从存储到计算单元的移动，会带来远高于计算本身的能耗与延迟。

所以“更大上下文”的底层竞争力，最终体现在：数据怎么布局、怎么分层缓存、怎么就地计算、怎么减少跨层搬运。上层看起来是“我能对万亿信息做推理”，底层实际是“我能不能用更少的搬运完成同样的推理”。

5）训练范式也会跟着改：上下文系统将成为能力的一部分

当推理成本与上下文系统变成核心，训练目标也会随之变化：不再只追求预训练效率最优，而要把推理阶段的检索、过滤、调用工具的能力一并纳入“可用能力”定义。预训练与后训练的界限会变得更模糊，模型会越来越像在“系统里学习”，而不是在“数据流里观看”。

换句话说，未来的能力不止在模型里，也在模型周围的上下文与工具系统里。

结论：范式迁移已经开始

从百万到万亿 token，表面是上下文窗口的数量级变化，本质是 AI 体系结构的变化：从单点大模型，走向“检索—过滤—注意力—工具链”协同的推理流水线。不是更大模型，而是更大上下文；不是一次推理，而是持续执行。谁能把这条链路做成工业体系，谁就会在下一轮竞争中领先。