智能驾驶竞逐“通用物理AI”-经济参考网 _ 新华社《经济参考报》官方网站

进入2026年后，智能驾驶的叙事逻辑正在发生微妙变化。当行业还在围绕“端到端”的数据闭环与场景覆盖率进行军备竞赛时，一些引领者开始将讨论引向更底层的维度——物理世界规律的预训练。

在前不久举行的2026北京车展上，卓驭科技发布了其首个原生多模态基础模型。在卓驭科技的技术图景中，智能驾驶不应仅仅是模仿人类司机行为的“端到端”黑盒，而应进化为基础模型对物理规律（如惯性、摩擦力、碰撞代价）的内化理解。这种被称为“移动物理AI”的路径，核心诉求在于解决行业长期面临的痛点：如何让一套智驾系统以极低的边际成本，适应从乘用车到重卡、从国内路况到海外路权、从地面到空中的异构场景。

智能驾驶的技术演进通常被划分为“小模型”“中模型”“大模型”三个阶段。卓驭科技将行业当前的主流方案定义为“中模型”阶段：即参数规模在数千万至数亿之间的端到端模型。这类方案通过模仿学习，通常能达到“好用”的水平，但在应对跨地域（比如中外交通规则存在差异）或跨垂类（比如从轿车适配到长轴距重卡）场景时，往往面临高昂的泛化适配成本，有时甚至得推倒重来，重新开展训练。

卓驭科技推出的原生多模态基础模型，则试图在预训练阶段直接注入物理世界的通用规律。该模型支持视频、文本、动作、语音、地图等多模态信息的统一表征输入，训练数据不仅包含驾驶场景，还融合了互联网物理交互数据及各类移动机器人运行日志。

“与其他VLA（视觉-语言-动作）方案不同，我们的模型没有从传感器到动作输出的显式语义翻译过程。”卓驭科技相关技术负责人表示，“所有模态在统一框架下完成训练，消除了翻译延迟与信息损耗，目标是实现零样本知识迁移。”这意味着，模型或许能在未专门训练过的场景中，仅凭对物理规律的理解做出决策，从而达到“开箱即可用”的状态。

技术路线的升级背后，是规模化落地的现实压力与商业验证，也是当前头部厂商竞逐的焦点。

在此之前，华为发布乾崑智驾ADS 5，其搭载的WEWA 2.0架构引入云端“多智能体博弈”世界模型与车端“安全风险场”行为模型，着重通过风险热力图与在线强化学习提升复杂场景下的防御性驾驶能力；小鹏汽车推出第二代VLA大模型，称其采用原生多模态物理世界大模型，旨在对标特斯拉FSD的最新能力；Momenta则宣布推出基于“世界模型”与“强化学习”的物理AI模型“R7”。

从行业视角来看，这场集体转向“基础模型”与“世界模型”的竞赛，折射出智能驾驶发展阶段的深刻变化。过去几年的竞争，主要集中在数据量堆积与场景覆盖上，而现在的核心命题已变为如何通过通用化的物理智能与多模态理解，降低跨域、跨类、跨国的适配成本。

据悉，卓驭科技已与中国一汽达成深度战略合作。在乘用车板块，双方联合开发的“红旗司南”组合驾驶辅助已实现量产，后续将逐步升级至端到端4.0及原生多模态架构；在商用车板块，基于激目2.0系统的解放J7重卡高速NOA产品将于下半年上市。

首页 >> 正文