首页 > 股市 > 正文

未来智造局｜VLA之后，具身智能如何重构“大脑”？——专访眸深智能CEO穆泽林

新华财经|2026年05月17日

阅读量：

在今年的红杉AI Ascent论坛上，英伟达机器人方向负责人Jim Fan更是给出了“VLA已死”的论断，引发行业对于下一代具身智能架构的讨论。今年以来，“世界模型+VLA”的架构成为行业探索的高频词。但在眸深智能CEO穆泽林看来，这依然只是一种“过渡态”。

未来智造局 logo.jpeg

新华财经上海5月17日电（记者杜康）过去一年，具身智能无疑是科技领域最受瞩目的核心赛道之一。然而，相较于实验室内机器人流畅执行复杂任务的演示，真实的产业落地却暴露出诸多局限。光线的微调、物品位置的偏移，或是操作台高度的些许变化，都可能导致机器人的动作出现严重偏差甚至宕机。

这种泛化能力的不足，恰恰反映了过去三年具身智能主流“大脑”技术路线——VLA（Visual Language Action视觉-语言-动作）架构面临的局限。在今年的红杉AI Ascent论坛上，英伟达机器人方向负责人Jim Fan更是给出了“VLA已死”的论断，引发行业对于下一代具身智能架构的讨论。

由于VLA技术路线的局限性，今年以来，“世界模型+VLA”的架构成为行业探索的高频词。但在眸深智能CEO穆泽林看来，这依然只是一种“过渡态”。在接受记者专访时他表示，具身智能“大脑”的突破，需要真正学会动作之间的物理规律和逻辑。在新的模型中，他尝试引入“动作基元”理念，重构具身智能“大脑”框架。

目前来看，目前具身智能行业技术路线仍在快速迭代之中。围绕泛化能力、数据效率、端侧成本与商业闭环的竞争，将是行业下一阶段演进的核心方向。

“VLA”已死？具身大脑从“记动作”到“懂动作”进化

过去三年，VLA模型是构建机器人大脑的主流范式：视觉负责感知，语言负责理解，动作负责执行。这一路线曾让长期依赖示教和规则的机器人行业，看到了走向通用化的可能。

不过，这一技术路线如今暴露出越来越多的局限。以“拿起杯子”的动作为例，当桌面高度，甚至光线环境发生变化后，机器人往往就会不知所措，难以像人类一样自主调整动作策略。

穆泽林认为，这种泛化性的不足，反映的核心问题在于，传统VLA更接近于对大量动作数据的“记忆”和“拟合”，而非真正理解动作背后的物理逻辑。

“VLA技术路线更偏重其中的语言（也即Language）部分，本质上是先把复杂的物理世界转化成语言，再通过大量动作数据进行模仿学习。VLA擅长编码知识和名词，但在物理和动词方面表现不足。这种方式可以让机器人快速学会固定任务，但对于陌生环境和长尾场景，依然缺乏真正的物理理解能力。”

为了提升机器人对真实世界的理解能力，当前行业开始引入“世界模型”等技术，对环境变化进行预测和推演。但在穆泽林看来，这仍属于对原有架构的“修补”。“只要系统还需要先把视频、空间信息转化为语言，再由语言生成动作，信息损耗就不可避免。”

基于这一判断，眸深智能尝试直接重构具身智能“大脑”的底层架构，提出了“World Motion Model”，直接将文本、图像与动作映射至统一特征空间进行对齐。

更重要的是，眸深智能赋予机器人类似大语言模型预测词元的动作生成能力。其团队提出了“动作基元”概念，将抓取、推动、旋转等基础动作拆解为数千种最小动作单元，再通过组合形成复杂行为。

“就像大语言模型通过词元组织语言一样，我们希望机器人也能通过最基础的动作单元，组合出复杂动作。”他说。

在这一架构下，机器人不再只是重复固定轨迹，而是逐步理解动作之间、动作与环境之间的关系。当环境发生变化时，也能够自主生成新的动作策略。

打破数据与算力枷锁“千倍降本”铺平规模化道路

技术路线的改变，随之而来的，是训练数据收集方式的变化。

一直以来，具身智能产业都面临训练数据的严重缺乏。此前有行业人士判断，要训练出一个能够真正掌握物理规律、具备较高泛化能力的通用物理AI模型，至少需要千亿乃至万亿级规模的庞大交互数据。与行业预期的千亿级数据规模相比，当前真实机器人交互数据仍存在明显缺口。

穆泽林表示，新的架构下，具身智能大脑可以直接通过海量的互联网视频数据进行学习，最大程度上降低对真机数据的依赖。由于具备跨本体兼容能力，眸深不需要绑定单一机型采集数据。“动作基元”概念的提出，更是让模型需要的数据总量进一步下降。穆泽林将其称之为“千倍降本的数据管线与配方”。

“本质上是提升数据利用效率。”穆泽林表示，当模型真正学会底层动作逻辑后，对数据量的依赖也会明显下降。

降低大脑训练的成本之外，能否降低端侧算力成本、减少推理延迟都是影响机器人规模化落地的关键因素。

他提到，现在一些复杂的机器人系统动辄需要搭载高性能GPU，单台的硬件成本居高不下，严重限制了商业普及。“以一台环卫机器人为例，如果端侧需要配置两张英伟达RTX 4090显卡，仅这一项算力成本就得8万块钱。”

穆泽林表示，眸深智能正在推进大模型压缩与轻量化部署，通过模型蒸馏、冗余参数压缩等工程化方案，将原本千亿参数级模型压缩至百亿级别。“过去，这些工程化问题并未被行业视作优化的关键项，但如今这恰恰是真正走向规模化的重中之重。”

“在保持精度的情况下，我们在具体场景中，可将模型参数量降低约75%，机器人端侧推理延迟也从约200毫秒降至10毫秒左右。”他说。

避开极低容错率陷阱，率先落地环卫作业、工业消毒等场景

相比技术路线之争，商业化落地更能检验具身智能企业的真实能力。

当前，不少企业将工业制造视为人形机器人最重要的落地方向之一。但在穆泽林看来，现阶段工业核心产线对于稳定性、连续运行能力和容错率的要求，仍高于多数通用机器人系统的成熟度。

“即使机器人动作准确率能达到99%，在大规模产线中依然可能带来企业无法接受的停机风险。此外，长时间连续运行对于机器人硬件稳定性、散热、电机寿命等也提出较高要求。”

基于这一判断，眸深智能现阶段并未优先切入容错率要求极低的工业核心环节，而是重点布局商业服务、高风险作业及部分非标场景。

“商业化需要尊重客观规律。”穆泽林说，现阶段机器人并不需要一开始就完全替代人类，而是先解决真实场景中的具体问题。

记者获悉，目前，眸深智能已在多个场景推进落地。例如，在工业消毒场景中，眸深智能正为企业提供能够在多个车间作业的甲醛消毒机器人，替代人工进入高风险环境进行化学试剂处理；在零售场景中，公司与光明集团等企业合作推进调酒机器人及超市补货机器人；在环卫领域，相关机器人也已经能够很好完成清扫任务。

“端侧成本的大幅降低，为这些应用场景的快速铺开打下了基础。”穆泽林认为，非标且具备一定容错率的场景更容易促成客户买单，也能反哺企业持续积累高价值的真实运行数据。

“只有真正把机器放进场景里干活，数据飞轮才能真正转起来。”他说。据透露，得益于务实的商业化策略，目前眸深智能在手订单规模已达数千万元，今年上半年已顺利完成约3000万元的商业回款。

编辑：葛佳明

声明：新华财经（中国金融信息网）为新华社承建的国家金融信息平台。任何情况下，本平台所发布的信息均不构成投资建议。如有问题，请联系客服：400-6123115

传播矩阵

主题

热点

首页

股票

债券

外汇

基金

期货

指数

研报金榜

合规评测

丝路数据库

新华财经

新华丝路

新华信用

新华指数

产品下载

未来智造局｜VLA之后，具身智能如何重构“大脑”？——专访眸深智能CEO穆泽林

传媒矩阵

友情链接