未来智造局|VLA之后,具身智能如何重构“大脑”?——专访眸深智能CEO穆泽林
在今年的红杉AI Ascent论坛上,英伟达机器人方向负责人Jim Fan更是给出了“VLA已死”的论断,引发行业对于下一代具身智能架构的讨论。今年以来,“世界模型+VLA”的架构成为行业探索的高频词。但在眸深智能CEO穆泽林看来,这依然只是一种“过渡态”。

新华财经上海5月17日电(记者杜康)过去一年,具身智能无疑是科技领域最受瞩目的核心赛道之一。然而,相较于实验室内机器人流畅执行复杂任务的演示,真实的产业落地却暴露出诸多局限。光线的微调、物品位置的偏移,或是操作台高度的些许变化,都可能导致机器人的动作出现严重偏差甚至宕机。
这种泛化能力的不足,恰恰反映了过去三年具身智能主流“大脑”技术路线——VLA(Visual Language Action视觉-语言-动作)架构面临的局限。在今年的红杉AI Ascent论坛上,英伟达机器人方向负责人Jim Fan更是给出了“VLA已死”的论断,引发行业对于下一代具身智能架构的讨论。
由于VLA技术路线的局限性,今年以来,“世界模型+VLA”的架构成为行业探索的高频词。但在眸深智能CEO穆泽林看来,这依然只是一种“过渡态”。在接受记者专访时他表示,具身智能“大脑”的突破,需要真正学会动作之间的物理规律和逻辑。在新的模型中,他尝试引入“动作基元”理念,重构具身智能“大脑”框架。
目前来看,目前具身智能行业技术路线仍在快速迭代之中。围绕泛化能力、数据效率、端侧成本与商业闭环的竞争,将是行业下一阶段演进的核心方向。
“VLA”已死?具身大脑从“记动作”到“懂动作”进化
过去三年,VLA模型是构建机器人大脑的主流范式:视觉负责感知,语言负责理解,动作负责执行。这一路线曾让长期依赖示教和规则的机器人行业,看到了走向通用化的可能。
不过,这一技术路线如今暴露出越来越多的局限。以“拿起杯子”的动作为例,当桌面高度,甚至光线环境发生变化后,机器人往往就会不知所措,难以像人类一样自主调整动作策略。
穆泽林认为,这种泛化性的不足,反映的核心问题在于,传统VLA更接近于对大量动作数据的“记忆”和“拟合”,而非真正理解动作背后的物理逻辑。
“VLA技术路线更偏重其中的语言(也即Language)部分,本质上是先把复杂的物理世界转化成语言,再通过大量动作数据进行模仿学习。VLA擅长编码知识和名词,但在物理和动词方面表现不足。这种方式可以让机器人快速学会固定任务,但对于陌生环境和长尾场景,依然缺乏真正的物理理解能力。”
为了提升机器人对真实世界的理解能力,当前行业开始引入“世界模型”等技术,对环境变化进行预测和推演。但在穆泽林看来,这仍属于对原有架构的“修补”。“只要系统还需要先把视频、空间信息转化为语言,再由语言生成动作,信息损耗就不可避免。”
基于这一判断,眸深智能尝试直接重构具身智能“大脑”的底层架构,提出了“World Motion Model”,直接将文本、图像与动作映射至统一特征空间进行对齐。
更重要的是,眸深智能赋予机器人类似大语言模型预测词元的动作生成能力。其团队提出了“动作基元”概念,将抓取、推动、旋转等基础动作拆解为数千种最小动作单元,再通过组合形成复杂行为。
“就像大语言模型通过词元组织语言一样,我们希望机器人也能通过最基础的动作单元,组合出复杂动作。”他说。
在这一架构下,机器人不再只是重复固定轨迹,而是逐步理解动作之间、动作与环境之间的关系。当环境发生变化时,也能够自主生成新的动作策略。
打破数据与算力枷锁“千倍降本”铺平规模化道路
技术路线的改变,随之而来的,是训练数据收集方式的变化。
一直以来,具身智能产业都面临训练数据的严重缺乏。此前有行业人士判断,要训练出一个能够真正掌握物理规律、具备较高泛化能力的通用物理AI模型,至少需要千亿乃至万亿级规模的庞大交互数据。与行业预期的千亿级数据规模相比,当前真实机器人交互数据仍存在明显缺口。
穆泽林表示,新的架构下,具身智能大脑可以直接通过海量的互联网视频数据进行学习,最大程度上降低对真机数据的依赖。由于具备跨本体兼容能力,眸深不需要绑定单一机型采集数据。“动作基元”概念的提出,更是让模型需要的数据总量进一步下降。穆泽林将其称之为“千倍降本的数据管线与配方”。
“本质上是提升数据利用效率。”穆泽林表示,当模型真正学会底层动作逻辑后,对数据量的依赖也会明显下降。
降低大脑训练的成本之外,能否降低端侧算力成本、减少推理延迟都是影响机器人规模化落地的关键因素。
他提到,现在一些复杂的机器人系统动辄需要搭载高性能GPU,单台的硬件成本居高不下,严重限制了商业普及。“以一台环卫机器人为例,如果端侧需要配置两张英伟达RTX 4090显卡,仅这一项算力成本就得8万块钱。”
穆泽林表示,眸深智能正在推进大模型压缩与轻量化部署,通过模型蒸馏、冗余参数压缩等工程化方案,将原本千亿参数级模型压缩至百亿级别。“过去,这些工程化问题并未被行业视作优化的关键项,但如今这恰恰是真正走向规模化的重中之重。”
“在保持精度的情况下,我们在具体场景中,可将模型参数量降低约75%,机器人端侧推理延迟也从约200毫秒降至10毫秒左右。”他说。
避开极低容错率陷阱,率先落地环卫作业、工业消毒等场景
相比技术路线之争,商业化落地更能检验具身智能企业的真实能力。
当前,不少企业将工业制造视为人形机器人最重要的落地方向之一。但在穆泽林看来,现阶段工业核心产线对于稳定性、连续运行能力和容错率的要求,仍高于多数通用机器人系统的成熟度。
“即使机器人动作准确率能达到99%,在大规模产线中依然可能带来企业无法接受的停机风险。此外,长时间连续运行对于机器人硬件稳定性、散热、电机寿命等也提出较高要求。”
基于这一判断,眸深智能现阶段并未优先切入容错率要求极低的工业核心环节,而是重点布局商业服务、高风险作业及部分非标场景。
“商业化需要尊重客观规律。”穆泽林说,现阶段机器人并不需要一开始就完全替代人类,而是先解决真实场景中的具体问题。
记者获悉,目前,眸深智能已在多个场景推进落地。例如,在工业消毒场景中,眸深智能正为企业提供能够在多个车间作业的甲醛消毒机器人,替代人工进入高风险环境进行化学试剂处理;在零售场景中,公司与光明集团等企业合作推进调酒机器人及超市补货机器人;在环卫领域,相关机器人也已经能够很好完成清扫任务。
“端侧成本的大幅降低,为这些应用场景的快速铺开打下了基础。”穆泽林认为,非标且具备一定容错率的场景更容易促成客户买单,也能反哺企业持续积累高价值的真实运行数据。
“只有真正把机器放进场景里干活,数据飞轮才能真正转起来。”他说。据透露,得益于务实的商业化策略,目前眸深智能在手订单规模已达数千万元,今年上半年已顺利完成约3000万元的商业回款。
编辑:葛佳明
声明:新华财经(中国金融信息网)为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115










