E2B和E4B负责端侧,跟谷歌Pixel团队、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano上离线运行,延迟接近零
谷歌深夜发布 Gemma 4。
它不是只发了一个大模型,而是把同一套能力拆成四个尺码:E2B、E4B、26B、31B。
其中最值得盯住的不是榜单,而是端侧:E2B 和 E4B 面向手机与边缘设备,和 Pixel 团队、以及高通、联发科一起做过联合优化;可以在手机、树莓派、Jetson Orin Nano 上离线运行,并把推理延迟压到接近零。
当一件事从“能跑”变成“接近零延迟”,它就不再是一项功能,而会开始改写系统。
端侧的意义不在“离线”,而在“无需等待”
云端智能的本质是:你把问题发过去,等它回消息。
端侧智能的本质是:它就在你手边,随时插入。
从交互上看,这不是快一点,而是两种不同的协议。
- 云端:问答协议。一次请求,一次响应。
- 端侧:伴随协议。你做事,它同步理解、同步修正、同步补全。
“接近零延迟”意味着:AI 从远程服务,变成了本地器官。
从“推理”迁移到“控制”:端侧会让 Agent 变形
云端 Agent 强在编排:工具调用、长流程、重试、验证、路由。
但它的弱点也很固定:远。
端侧一旦稳定且低延迟,Agent 的默认形态会发生迁移:
- 从“跑流程”迁移到“控动作”
- 从“事后总结”迁移到“边做边改”
- 从“需要网络权限”迁移到“默认可用”
这不是更便宜的云,而是另一种产品形态:副驾驶。
联合优化这四个字,意味着端侧不是模型战,而是供应链战
端侧 AI 过去最大的坑是“跑得起来但交付不了”。
你可以在开发板上演示,但你没法把它稳定地塞进千万台设备。
“和 Pixel / 高通 / 联发科联合优化”意味着这条路开始走向工程闭环:
- 算子如何落在 NPU 上
- 量化与编译如何对芯片友好
- 内存与带宽如何被精确预算
- Runtime 如何变成可交付件
当模型方开始把芯片厂写进发布叙事里,说明竞争焦点已经变了:不是谁更聪明,而是谁更能规模化。
手机、树莓派、Jetson:端侧不只是消费品,它是边缘智能的底座
把树莓派和 Jetson Orin Nano 放进同一句话里,其实是在宣告一个边界:端侧不只服务“个人”,也服务“现场”。
现场的共同特征是:
- 网络不可靠
- 数据敏感
- 延迟不可接受
- 行为需要可控
当模型能在这些设备上离线跑起来,AI 就会从 App 里的一个按钮,走向边缘系统的一个常驻组件。
真正的分水岭:当延迟接近零,AI 开始吞掉“交互层”
我们过去讨论 AI,讨论的是能力:会不会写、会不会算、会不会看。
端侧把讨论换成了另一件事:谁掌控交互层。
因为交互层决定了两件事:
- 用户的注意力流向哪里
- 数据从哪里产生、怎样闭环
当 AI 能在端侧无缝插入你的每一步操作,它就不再等待你“提问”,而是在重新组织你的工作方式。
终极拷问:你要做功能,还是要做协议
在云端时代,AI 常被包装成一个功能:加一层按钮,接一个 API。
端侧时代,AI 更像一种协议:它要求你重新设计输入输出、状态管理、权限边界、以及“何时介入”。
所以问题变成:
你要做的是一个模型功能,还是一个端侧常驻的交互协议?
E2B/E4B 这类端侧路线的真正价值,不在于把模型做小,而在于把 AI 变近:近到足以改写产品的骨架。