首页财产ai正文 智平方发布全世界首个类脑式具身智能体系NeuroVLA,抛出下一代呆板人年夜脑谜底 6月北京智源年夜会上,智平方开创人郭彦东闭幕世界模子与VLA之争,先容交融结果Video2Act,还有发布类脑具身智能体系NeuroVLA,给出呆板人年夜脑演进线路。 2026-06-14 19:56 ·投资界综合

6月,北京智源年夜会现场,缭绕具身智能的技能线路之争再次成为行业核心。已往一年,跟着呆板人财产快速升温,一个问题连续激发会商:呆板人毕竟应该走VLA线路,还有是世界模子线路?
对于此,作为本次年夜会具身财产CEO论坛的首位开场大旨演讲佳宾,智平方开创人兼CEO郭彦东博士一上台便化身“闭幕者”,对于这一行业争辩抛出明确谜底:
世界模子不是VLA的竞争线路,而是VLA系统中的焦点构成部门;而于世界模子与VLA交融以后,类脑架构将成为下一代呆板人年夜脑的主要演进标的目的。
这一判定暗地里,也对于应着智平方已往三年连续高压强的技能结构——从端到端VLA,到交融世界模子,再到最新发布的类脑年夜模子NeuroVLA,一条清楚的呆板人年夜脑进化线路正于成型。
闭幕世界模子与VLA之争
世界模子无疑是当下全世界具身智能范畴最热点的话题之一。
不少研究者认为,呆板人起首需要成立对于物理世界的理解能力,才能进一步孕育发生靠得住举动;也有人认为,VLA直接从视觉及语言天生动作,是更高效、更实际的技能路径。
郭彦东博士认为,从生命演化的角度来看,步履能力其实不是伶仃孕育发生的。生命起首需要感知情况、理解情况,然后才会孕育发生步履。
换句话说,世界模子卖力理解世界,而VLA卖力作用在世界,二者并不是对于立瓜葛,而是自然同一的总体。
他于演讲中指出,当前被广泛会商的“世界模子”,素质上其实不是物理纪律驱动,而是靠海量数据练习出来的。“数据充足多,模子就知道水杯越过桌面会着落、手机屏幕使劲敲可能会碎——这不是物理纪律的总结,而是年夜数据进修的成果。”
基在这一判定,郭彦东从头给出了VLA的界说:VLA是多种模态交融的年夜数据驱动的端到端模子架构的总称。于这个界说下,世界模子与VLA没有素质区分,更不是替换瓜葛。
“世界模子解决的是对于物理情况举行浓厚、包罗时间维度的4D猜测,它是一个很是好的空间基础模子,是VLA空间感知的一部门,能帮忙呆板人年夜脑愈来愈好。”
他进一步器具体使命注释了为何二者必需交融:“假如不把世界模子归并于VLA内里,许多使命彻底做不了。好比沏茶要先拿茶包再倒水,做咖啡要先拿杯子再接水——这些推理认知逻辑靠语言模子更易完成。世界模子擅长的是短程猜测,好比水杯接近桌边可能失落。只有把二者归并,呆板人材既能做短程物理猜测,又能做长程使命计划。”
除了了于VLA中交融世界模子的猜测能力,智平方还有使用世界模子天生真实情况中难以收罗的边沿数据(corner case)。“好比收罗杯子数据时,收罗到的可能都是桌子中间的,健忘收罗桌子边沿的。这时候就能够用世界模子天生桌子边沿的样本,来补足VLA。”
基在这一判定,智平方很早便最先鞭策世界模子与VLA的交融研究。
2025年11月,智平方结合北京年夜学率先推出交融世界模子的新一代架构Video2Act,初次实现“先猜测、后履行”的呆板人模子范式。

于智平方看来,世界模子最 年夜的价值从来不是天生视频,而是天生步履。
呆板人不仅需要猜测将来会发生甚么,更需要基在这类猜测决议下一步应该做甚么。
是以,Video2Act并不是传统意义上的视频天生模子,而是一个交融4D世界模子的VLA架构。经由过程空间浓厚信息建模以和动作时序的连续输入,呆板人可以或许提早理解将来状况变化,并将这类猜测能力直接转化为步履决议计划。
这是世界模子第 一次真正成为呆板人步履体系的一部门。
于第三方评测中,Video2Act相较在硅谷同类标杆模子取患上跨越30%的机能领 先。
更值患上存眷的是,2026年,由英国皇 家两院院士、图灵人工智能世界领 先研究员Philip Torr、强化进修范畴奠定者Pieter Abbeel等全世界顶 级学者结合完成的世界模子权势巨子综述《World Model for Robot Learning: A Comprehensive Survey》中,Video2Act被作为“世界模子+VLA交融线路”的代表性结果重点援用。
这象征着,关在“世界模子还有是VLA”的争辩,正于被新的技能范式所代替。
真正主要的问题已经经再也不是谁替换谁,而是谁可以或许率先实现二者的深度交融。
世界模子与VLA交融以后,下一代呆板人年夜脑来了
假如说世界模子与VLA的交融解决了呆板人“看懂世界”的问题,那末呆板人怎样像人同样不变、高效地步履,则成为新的挑战。
这也是智平方近期重点冲破的标的目的。
于智源年夜会上,郭彦东重点先容了智平方最新发布的类脑具身智能体系NeuroVLA,今朝唯 一同时具有自动感知、妨碍自恢复与时序影象三年夜类生物运动能力的具身智能体系。

他提出一个不雅点:
“各人做人形呆板人,每天想着怎样长患上像人,但没有人想怎样让脑子更像人。”
于现有VLA架构中,呆板人虽然已经经具有较强的理解能力,但面临真实世界的繁杂情况,仍旧遍及存于相应慢、动作抖动、能耗高档问题。
缘故原由于在,年夜大都呆板人仍旧依靠一个同一的年夜模子同时处置惩罚感知、推理与节制。
而人类年夜脑其实不是如许事情的。
人脑中,皮层卖力思索,小脑卖力协调运动,脊髓卖力本能反射,差别体系于差别时间标准上协同运作。
借鉴这一机制,智平方构建了全世界首 个“皮层—小脑—脊髓”三级类脑架构NeuroVLA。
此中,皮层卖力语义理解及使命计划;小脑卖力高频运动协调与动态批改;脊髓则卖力毫秒级运动履行与安全反射。
这一设计让呆板人初次具有了近似生物体系的层级智能能力,从架构层面晋升呆板人于真什物理世界中的不变性、及时性与能效。
试验成果显示,NeuroVLA可以或许将呆板人运动抖动降低75%以上,于碰撞发生后20毫秒内完成反射相应,同时显著降低体系功耗。

对于在呆板人而言,这些数字暗地里象征着一次质变。
已往的呆板人可以或许思索,却难以流利步履。将来的呆板人不仅可以或许思索,还有可以或许像人同样即时反映、自立批改及连续顺应。
呆板人最先从“会推理”,走向“会本能反映”。
从某种意义上说,NeuroVLA所解决的已经经再也不是简朴的模子问题,而是呆板人年夜脑架构问题。
它试图回覆的是:呆板人怎样拥有真正靠近生物体系的智能。
而这恰是类脑智能的价值地点。
从端到端VLA,到Video2Act,再到NeuroVLA。已往三年,智平方连续缭绕呆板人年夜脑举行体系性立异。

假如说VLA让呆板人拥有了步履能力,世界模子让呆板人拥有了理解及猜测能力,那末NeuroVLA则进一步付与呆板人靠近生物体系的反映与节制能力。
这三次演进暗地里,实在对于应着统一个标的目的:
怎样让呆板人拥有一个更像人脑的“年夜脑”,让呆板人愈来愈靠近真实的人类智能。
于本次智源年夜会的舞台上,郭彦东给出的不仅是一套技能方案,更是一条关在下一代呆板人年夜脑的演进线路。
【本文经授权发布,不代表投资界态度。本平台仅提供信息存储办事。】【免责声明】:本文不组成任何投资建议。市场有危害,投资需审慎。若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。-雷火·竞技