- A+
容易被误解的是,
文 | 硅谷101
大家常常忽略的是,
文 | 硅谷101
作为人工智能和机器人交叉的前沿领域,具身智能是当今科技领域最具潜力和前景的方向之一。其中,机器人/具身大模型扮演着“中枢大脑”的角色,使机器人能够在难办多变的环境中实现自主学习和持续进化。因此,大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的关键环节。
说到底,
9月8日,中国的具身智能公司自变量机器人开源了他们的具身模型WALL-OSS,紧接着的9月9日,美国的具身智能公司Physical Intelligence(简称PI、π)也开源了他们的π₀.₅模型。中美两家公司几乎同时开源了自己的模型,这并非偶然。2025年,具身大模型的开源生态正在进入百花齐放的发展阶段。
令人惊讶的是,
这一态势让人联想到过去几年里以ChatGPT为代表的语言大模型演进路径:从2018年开源社区初步兴起,到2020年5月ChatGPT-3引发全球瞩目,语言大模型用了三年时间走向成熟。那么,机器人大模型距离属于它的“GPT-3时刻”还有多远?
可能你也遇到过,
本期《硅谷101》,主播泓君邀请了自变量机器人的CTO王昊,以及Physical Intelligence的研究员柯丽一鸣(Kay Ke),她是π₀、π₀.₅论文作者,一起来聊聊今年机器人模型领域关键的突破、当前还面临着哪些挑战、对比下中美的机器人发展路径有何区别,以及还需要多久才能在全场景落地。
总的来说,
以下是这次对话材料的精选:
站在用户角度来说,
01 行业突破与泛化能力
泓君:诸位们认为整个2025年,机器人的模型领域最关键的突破是什么?
站在用户角度来说,
柯丽一鸣:我搞机器人大概有七八年了,我觉得机器人大模型的红火,也是在最近两三年才启动集中爆发。
站在用户角度来说,
我自己刚启动的研究中,没有用到很多大模型这些东西,更多是做一些小而精的任务。当时我就发现:一套东西在一个场景下能化解特定的状况,虽然做出来效果不错,但是很难便宜、便捷地复制到新的状况上去。
可能你也遇到过,
从而在我探索大模型的途中,最大的一个惊喜发现就是,验证了模型的通用性,这样就具备启动做一些泛化、性能提升上的探索,这时才能启动讨论机器人大模型的可能性。在机器人领域,我觉得现在比起两三年前,对大模型这一种技术路线的信仰要浓厚得多。
总的来说,
王昊:今年有一个非常明显的现象,那就是在应用上呈现出了指数效应。这背后的驱动力,其实也是来源于通用机器人基础模型的发展和进步。
与其相反的是,
在2023年以前,小编很多人会专注在单个任务上,把它做到极致;但现在小编有了统一的基础模型之后,就能够同时学习并执行成百上千种不同的任务,其实也就意味着:小编的优化目标变了,重心放在了提升整个模型在所有任务上的平均成功率。这也是指数效应发展的基础,小编现在具备启动去做难办的长程任务(Long-Horizon Task,包含一系列连续操作手段、需要机器人进行多步推理、规划并执行,最终才能完成的难办任务),这是一个非常令人惊喜的现象。
据报道,
泓君:我总结大家刚刚的关键词,一个是整个机器人模型泛化的探索,还有一个是难办的长任务。请帮小编举一些例子来描述下,比如有哪些任务机器人以前做不到,到了2025年就能做到了?或者以前机器人只能局限在某个场景的特定任务,现在具备迁移到其他的场景了?
图片来源:Physical Intelligence
更重要的是,
柯丽一鸣:2024年的时候,PI(Physical Intelligence,美国具身智能公司)发布了π₀,当时就是想要推动泛化能力。其中最有代表性的一个例子就是叠衣服的任务。这个任务其实在机器人界做了十几到二十年,有很多人都在研究。
大家一般认为让AI下围棋很难,考虑到围棋的难办度很高嘛,每一把棋局都不一样,其实在小编日常生活中,叠衣服这些看上去对人来说很容易的小任务,它具体的难办度也很高。比如衣服上面可能有两个折、有三个折,或者某个折的角度不一样,对机器人来说可能都是一个新的情况,它需要把这么多不同的情况化解。
不妨想一想,
同时叠衣服有很多不同的操作手段,要先叠什么再叠什么,有这样的序列性,这种难办的细分的情况和序列性,使得叠衣服这个任务在以前是比较难化解的。
与其相反的是,
到了2025年,小编也启动探索了不少泛化的方向,比如说把π₀.₅模型放到一个移动机器人里,再把这个移动机器人放到不同的、没有见过的家里,这些都不在模型的数据集里面,模型可能不知道会怎么反应,然后小编观察它会怎么做。在这个过程中小编发现,要做到泛化性还是比较有希望的,虽然机器人的表现不是很完美,但它好像展现出了一点像人类的特性,比如拿东西,换到别的家场景里还是能拿。
XM外汇消息:
泓君:它拿的是哪一类的东西?在我的理解中,衣服是软的布,但如果拿起一个杯子、一个碗,是不是就不太一样?
根据公开数据显示,
柯丽一鸣:是的,其实这一类状况在机器人内部术语就叫抓取状况,考虑到它要结合物体具体的形状、摆放的位置,甚至诸位靠近过去的时候的角度来考量。
从而抓取状况是既容易又不容易的一个状况,比如诸位要抓一个水杯,就算是完全一样的水杯,在两个不同环境中,也是一种泛化的体现,需要的策略会不一样。甚至以后我告诉机器人要拿杯子,它不管去了一个新的家、拿了一个完全不一样的杯子,都要能完成,彻底的泛化结果就需要这样层层递进的测试。
来自XM外汇官网:
图片来源:Physical Intelligence
XM外汇行业评论:
泓君:从而π₀.₅相比π₀,它的进化表现在哪?诸位刚刚提到了让它去一个新的家,它依然能够适应这种环境,这是一点。但比如说它做的任务是不是有一些局限性的?它的任务的可迁移性如何?哪些任务还不可迁移?它的规律是什么?请跟大家容易地解释一下。
通常情况下,
柯丽一鸣:当小编在启动推进π₀.₅的时候,小编强调的点就是泛化,这时会强迫自己去收集一些不同的数据。但这个“不同”的数据的“不同”,其实没有那么好定义,因此小编决定把机器人放到外面不同的房子里去测试。
而在这个过程中小编又发现,不知道要收多少个不同的房子的数据才算到头了,小编得一边收集、一边检验,同时心里也会怀疑:今天收集了3个房子的数据,是不是就有帮助了?如果小编收集了30个都没有帮助,是不是就意味着这条路走不通?
不可忽视的是,
但还好小编收集到了很多的不同的数据以后,最后训练出来的模型在验证时,确实发现它有比较强的泛化能力。也就是说π₀.₅在一些新的环境中的表现比以前更好了。当然并不是任意新环境都很好,目前还存在一些局限性,但大家还在慢慢地在感受和探索,未来落地时在性能上还有很多提升空间。
XM外汇资讯:
泓君:诸位们觉得机器人模型在研发过程中,泛化状况最难的环节是什么?比如是考虑到数据量比较小,还是算法的状况?
王昊:难点之一是物理世界中长尾效应的鲁棒性(robustness的音译,指事物具备抵御外部应力和影响并维持原有状态的自身性质),比如考虑到环境、光照产生了一些视觉误差。虽然具备通过用更好的传感器、更强的算力、更好的生成模型帮诸位做数据合成、数据增强,来缓解这些长尾效应,但真正的难点就是,现实时间有太多种可能性了,小编没法预测到所有可能的corner case(边角案例)。
值得注意的是,
图片来源:自变量机器人
据报道,
从而这些情况就没法让机器去提前学习,比如机器人执行任务的时候,桌布上可能有个小的褶皱、杯子可能放置不稳、可能有一个透明物体反光刚好干扰了相机等等情况。人类具备凭直觉和丰富的经验去瞬间适应这些微小的物理变化,但由于算法非常依赖于数据驱动,AI大模型面临这些新的挑战时,不一定能做好。
据业内人士透露,
另一个难点就是在长程任务上,很多微小的物理扰动会造成的各种微小误差,它会像滚雪球一样被放大,尾部的误差到最后,可能就直接导致了任务的失败。从而小编要化解的就是,怎么让模型化解这些没法在数据里包含的各种corner case,这个事的核心是要去构建一个能够理解物理常识、能够有物理直觉的模型基础,让模型能有空间的理解能力、推理能力。
不妨想一想,
从而这个状况的核心就是,小编要把机器人真实的数据、人类的视频数据等等都合在一起,让数据的规模更大、来源更丰富、质量更高、更多样,让机器人从这个学习过程中能够理解物理规律。但是这些和真实世界交互的高保真数据又是目前比较稀缺的,要得到这些数据并不意味着疯狂地在现实世界去采就行了,这件事情远比想象地更难办,它不止是数据量的状况,还是数据工程、数据管线的状况,比如如何降低小编的数据采集成本。
事实上,
柯丽一鸣:我也觉得难点挺多的,并不是只有一两个难点。王昊刚才说的长尾状况我觉得是难点之一。而从研究的角度来看,我认为是测试机器人模型的表现如何是很难的。
尤其值得一提的是,
大家经常看到新闻里说,哪家公司开放了新的大语言模型,它在某个榜单上面变成了第一名。而在机器人界,过去数十年来,一直没有办法在真机世界中做出这么一个榜单。没有办法非常客观、公正、可重复地告诉诸位:在什么情况下,模型A比模型B的表现是要好的。 做这个榜单的难点就是一个模型,它可能在某些地方表现好、其他地方表现不好,诸位要包含多少种不同的情况呢?如果要有一些corner case的话,那可就无穷无尽了。同时如果诸位想做一个真机的榜单,还要考虑这些真机维护、细节、对于模型的表现会不会造成影响等等情况。
其实,
因此到现在,机器人整个业界在发表论文的时候,很多时候都是依靠自己,既作为作者、又作为一个测评官,“我现在开发了一套算法,小编觉得它在这个任务上比之前的一些方法要好一些”。
概括一下,
缺乏统一的评价机制使得具身智能领域的发展缓慢了一些,考虑到诸位真的很难去分辨模型A、模型B到底哪个好。理想的情况是评分高的模型表现非常明显的好,而真实世界是菜鸡互啄。诸位说在模型上做了一些数据、算法上的改动,那诸位怎么验证?
请记住,
据我所知的话,业界里肯定有不少人在探索用模拟器,或者说一个第三方的、像打擂台一样的评测标准,我觉得这也是大家在这个难题上启动进行的一些探索。
图片来源:央视网
值得注意的是,
泓君:之前我看中国有机器人运动会,还有首届的机器人的展会,机器人有表现出很多的能力,比如说踢足球、赛跑,还有做一些具体的任务,怎么样去评判一个机器人,它的技术是好还是不好?从这些Demo上能看出来吗?
然而,
王昊:我觉得是比较困难的。这也是小编具身领域大家感到的一个难点和一个痛点。很难有一个统一的评测标准,具备让大家没有那么高成本、且比较公平地去评测模型。最好的评测就是要到现实世界去评测,但是小编又很难搭建一个公平的决斗场,从而这个是比较困难的地方
说出来你可能不信,
但我觉得还是有些办法具备去评测的。比如说小编有一批开源模型,大家具备在自己的机器人本体上,去看不同的模型在学习相同的任务的时候所需要的数据量,它所展现出来的泛化能力、推理能力,是具备去评测的。那另外对于不同的机器人的公司,那可能合理且公平的是:小编把它的机器人应用到具体的场景里面,去看不同模型的表现怎么样。考虑到在真实世界运用时,它所展现出来这种多样性、泛化性或者环境是非常随机的,从而它是最能体现诸位模型能力的。
大家常常忽略的是,
02 数据挑战与硬件瓶颈
XM外汇专家观点:
泓君:刚刚说到难点,Kay提到了第一点,还有两点是什么?
根据公开数据显示,
柯丽一鸣:第二个难点刚才王昊也提到了,就是 数据的质量和数量,就算在2025年的今天,还是鱼和熊掌不可兼得的事情。
据相关资料显示,
如果诸位想要数据质量非常高,是需要精心地去设计、勤勤恳恳地去清洗的,就比如大语言模型训练,也是对数据的质量很敏感。小编做机器人的数据都是自己收集的,然后再做清洗,每个细节都要到位。而一旦要对细节有追求,追求更高数量就有些难度。从而状况变成了小编是需要又多、又好、又快的数据,才能让小编的模型更好。
第三个难点的话,就是真机的维护。做机器人、尤其现在还在奋斗做真机机器人的同行们,一定是对这个行业很热爱的,但真机机器人硬件的维护,我觉得是很劝退的,尤其是很多新人,当我看到他们启动研究机器人的时候,会发现没有一个比较好的、上手就能用的机器人。
这可能不像一些纯软件的行业,诸位具备下载些代码就直接跑机器人,到现在依然没有一个大家都非常认可、都愿意拥抱的一个硬件平台,甚至这个硬件应该长什么样,其实业界到现在也还是在争论、在探索。我觉得这些客观条件使得小编的研究和领域有了一些门槛吧。
XM外汇行业评论:
开源机器人数据集,图片来源:Open X-Embodiment
尤其值得一提的是,
泓君:对,说到这个让我想起来,我有时候跟机器人的研究员们一起聚会,大家问白天在干嘛,那就是一天啥都没干,专门在修手,考虑到手不太稳定。
柯丽一鸣:是的,我刚启动读博的时候不是搞机器人,是搞理论机器学习的。当时还很年轻,就觉得:哎呀,整个机器人的项目怎么会用这么长时间呢?等我自己做的时候就发现,天天都在拧螺丝。
XM外汇行业评论:
泓君:我觉得数据确实是挺关键的一块的,我也知道王昊诸位们自变量机器人的模型,是有数万小时的多模态数据积累的。Kay诸位刚刚提到了π的模型,诸位说需要采集这种高质量的数据,然后要自己去收集、自己去做数据的清洗。
可能你也遇到过,
柯丽一鸣:稍微纠正一下,我觉得不光是π的模型想要大量高质量的数据,这可能是行业的共识,考虑到大语言模型的成功, 从而大家对数据的质量是比较敏感的。
泓君:诸位们的数据是诸位们自己采集的,还是第三方公司做的?
站在用户角度来说,
柯丽一鸣:小编有很多自己采集的数据。
据相关资料显示,
泓君:行业里面会有一些专门的第三方公司去供应数据吗?
柯丽一鸣:我倒是认识一些朋友,他们自己创业就是为机器人供应一些真机数据,但是这不是小编现阶段研究的重点。
概括一下,
泓君:诸位觉得多少的数据具备构成一个优秀的大模型。
概括一下,
柯丽一鸣:在这点上我有个暴论,也很好奇大家怎么看。我之前就经常和朋友聊天说,一个人的一生假设是100年的话,那小编很粗略地算就是100万个小时,现在我在公开信息里,好像没有看到有人做100万小时的数据集。
从而我会觉得,什么时候小编能够收到100万小时,等同于一个人一生的物理经验的数据,可能才能启动后面的探索。之后如果真的能把机器人广泛地部署在真实世界中的话,那也许收100万小时的数据,也就是几天的时间。
值得注意的是,
这也是来自于和一些做语言、图像、音频生成的朋友的吐槽,考虑到他们动手就很豪气的:我今天要做这个任务,给我来400万小时的数据,明天就要收集,后天就要清洗,我就说,咱做了多少年机器人,好像都没这个400万这个量呢。
可能你也遇到过,
图片来源:Physical Intelligence
其实,
泓君:为什么诸位的判断是100万小时?以前小编在说,人成为一个领域的顶级的学者专家,有个1万小时定律。包括我观察我家宝宝学吃饭的过程也是,她在非常小的时候,拿着勺子把饭喂到嘴边都是喂不准的,但她每天练习这个事情就慢慢学会了。但为什么机器人要训练出这样的灵活度,就需要比人大得多的数据量?
值得注意的是,
柯丽一鸣:我有一些很粗糙的想法,小编PI自己在做研究的时候,有个重心叫做跨本体迁移,就是希望在不同形状、不同类别的机器人上收集的数据,能适用到别的机器人上,让它更快地学会一个任务。
人类能做到这点可能和基因、躯体有一些关系,毕竟人类有一个非常好用的感知器,就是眼睛,现在也没有哪个相机敢对标人眼,还有小编的关节,这些物理的、天生的东西,我觉得是人行动力的基石。
XM外汇认为:
我个人比较相信,具备用一些算法上的优势,去盖过硬件上的不足。但罗马不是一天建成的,咱也不能指望机器人马上就能像宝宝一样学得这么快。机器人如果要迅速学习新任务的话,它之前还是得有非常多的积累。刚才王昊也提到、并且我在PI也看到的一点就是:某个机器人上收的一些任务数据,是具备帮助其他任务做得更好的,让新的任务也许就不用那么多数据。
换个角度来看,
王昊:其实和人比的话,我觉得对机器人来讲还是太不公平,核心就是考虑到人其实有“预训练”的。整个生物界在大规模的进化过程中,有两个非常核心的点:一是在进化过程中,人积累了很多先前验证的东西,比如跟世界交互的认知,关于物理世界的应对的策略,这些其实都写到了基因里;另一方面,人其实在不停地进化自己的硬件,整个生物界都是这样,大家能不用“智能”化解的东西,就尽量用“硬件”化解,从而很多生物体都会进化出一些结构,比如说大肠杆菌,它就不用长眼睛,只要对有化学、温度敏感的一些感知,就具备去适应周围的环境。
这你可能没想到,
小编现在正在做事,就是帮助机器人做它的预训练模型,虽然看起来要覆盖人类进化的几亿年的时间,但其实也不太一样。第一是考虑到机器人是具备进行大规模复制的,不同机器人之间具备共享它们的经验,小编就具备迅速构建机器人的预训练模型,让它能够具备对物理世界的感知、理解能力。当然这个过程也是让机器人越来越熟悉自己的身体,就像刚才Kay说的“跨本体泛化”,小编就是让不同的机器人(模型),适应不同的身体,并且让它能够互相感知到身体的不一样,这个很关键。
通常情况下,
其次在人的学习里面,所谓1万小时理论还是有很多不一样。人并不是一定时间内专门去学这一个任务,学完了再学下一个新任务。诸位启动教宝宝去做某件事情的时候,比如说拿一个东西,他可能精确度也不够、抓不准,从而就把这个东西扔到一边就不管了,去玩别的玩玩具、搭积木什么的,而过一个月之后诸位会发现,拿东西这个任务他在并没有花多少时间学习,但是他已经会了,这也体现了人在后天和环境交互过程中学习,其实也是一个多任务并行的学习。它具备从不同任务中学习到这种底层的、共同的物理结构,这种共同物理结构就会帮助它学习新任务时,减少它所需的数据量。
从而现在小编训练机器人时也是这么做的,小编用尽可能多样的数据、覆盖各种能力的任务,去构建这个大的数据体系、构建机器人能力,它也许在学习新的任务的时候,需要的数据量就会大大减少。从而刚才说机器人需要百万小时数据,核心就是化解两个状况,第一是覆盖过去人类长时间进化这个预训练的过程,小编需要通过多样的数据,去帮助机器人构建这种基础能力。第二就是在学习新任务的时候,小编也要利用它在旧任务学习中,形成的这种通用能力,让他能够泛化到新能力上。从而在数据上、时间长度上不能完全类比人类,但我觉得这个学习历程和背后所反映的规律可能是一致的。
说到底,
图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS
泓君:我很好奇大家在真实世界里面采集到的数据量有多大?训练一个具身模型时,数据会占多少成本?或者说数据有多贵?
XM外汇认为:
柯丽一鸣:在π₀的时候,小编做了一个比较容易的统计:π₀利用的数据,比谷歌研究院收集的所有数据加还要多,即使π₀发表的时候,PI还是一个很年轻的初创企业。
XM外汇消息:
我觉得其实这是描述了两件事:第一就是那个时间点采集的数据量确实是非常大,而且之后一直有往里面增加数据,而数据的成本、数据的量是在实时变化的。在谷歌研究院在启动探索的时候,要花很大的功夫才收到这些数据,但后来渐渐的有了经验,PI或者其他公司再收就会越来越容易,成本应该也是能够得到控制和降低的。
然而,
泓君:那诸位们现在合成数据用的多吗?我知道业界很多都会用合成的数据,前几周谷歌发布了Genie 3世界模型,我听到了两派不同的观点:有一派认为的Genie 3对机器人有非常大的帮助,考虑到这种世界模型的数据是有用的,但是另一派就会觉得这个数据质量还是不够好。
反过来看,
图片来源:Google
然而,
柯丽一鸣:我觉得具备分成两个状况,一个是小编之前做了什么,另一个是对整个领域来说什么东西很有用。
π₀.₅应该有一篇后续的论文,探讨了小编对π₀.₅训练中的一些考量,其中有提到过,小编在π₀.₅的时候,引入了一些网络数据,我不知道严格意义上这算不算合成数据,但确实是希望通过引入一些外界各种各样的知识,去给它一种通用和通感,而不是直接告诉机器人应该什么动作。
XM外汇快讯:
而合成数据对于领域有什么作用,我觉得没有一个很清晰的定论。现在有些人觉得,如果能够大批次的生成成本低廉、有可控性、而且对机器人有用的的数据,那会是很好的,但现在比较大的困难就是怎么弄出这些数据、怎么样证明它有用,这还是比较前沿的研究状况。
王昊:现在头部的机器人公司的数据量,考虑到有真实物理世界限制,大家可能都集中在几万到几十万这个范围内。但这个和训练像GPT-4这样级别的语言模型去比,数据量还是少很多。小编除了用最关键的现实世界真实数据、机器人上的数据,其实也会用一些其他方面的数据,但是每一类型的数据肯定都是有自己的状况的。 机器人的真实的数据是比较贵的,受限于机器人的硬件场地、处理员的收集速度等等因素,从而大家有了很多改进方法,不仅具备依靠真实机器人本体,也具备做一些低成本的本体,甚至不用做完整的本体,只有一些穿戴式的传感器设备,都是具备去采集的。
其实小编也用了很多生成模型去做合成数据,但合成数据主要是缓解一些视觉和现实的分布差异状况,它很难去生成带有物理交互过程的数据,这种数据还是得来于现实世界的采集。 还有一类数据,就是人类的视频数据。这个规模非常非常大,多样性也很多,成本相对来讲也比较低,小编也帮很多公司在做这方面的探索。但要靠这些数据帮机器人做动作级的生成还是很困难的,现在具身模型从视频数据里学到的,还是在动作意图上,小编从人类的视频里,让模型学到了一些高级的语义理解、一些任务规划。
但是这种规划是通过视频,而不是语言的手段机器去学习的。包括像Genie 3,我觉得它是非常好的一个工作手段,它就是从互联网、从游戏环境里面得到了大量高质量的数据,从而通过视频生成的手段,具备做一些动作控制,是未来是一个很好的方向。虽然这个环境相比于现实有些简化,但它仍然具备作为训练的环境,去帮诸位去做这种交互。 从而在数据上小编还有工作要做,我想每家公司在数据的投入占比可能都不太一样,这也取于整个公司的综合的实力,比如运营能力、硬件的水平,对数据的利用规划不一样,会让诸位的数据成本也不一样。
中国和美国相比,可能硬件成本、人力成本是比较大的差异。就算在同一个地区,运营能力、数据过滤、清洗、任务生成分发、不同的场景里面的数据采集能力、场景的迅速搭建以及恢复的能力,这都会影响数据成本。
与其相反的是,
泓君:从而诸位们公司的数据成本类比于其他机器人公司,大概是在什么水平?
王昊:这个很难在不同公司之间进行比较,考虑到大家对数据质量、多样性的要求可能不一样。但是对于小编公司来讲,数据肯定是在整个研发成本里占相当大的比例了。
说出来你可能不信,
图片来源:自变量机器人
泓君:在今年的9月8日,诸位们WALL-OSS的开源模型是正好上线了,请诸位给大家容易地介绍一下,诸位们的这个开源模型是什么?以及它的行业特点是什么?
大家常常忽略的是,
王昊:小编是持续地发扬开源精神,也吸收了很多经验,从而是用了大概几万小时的真实世界的数据,训练了一个具身的基础模型。
XM外汇快讯:
小编是在一个统一的框架下面,让它具备既具备去做思维链、也具备做动作的生成。小编基于已经训练好的基础的视觉语言模型去做扩展,让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力,同时它的动作的生成精度也比较高。这是小编观察到的,目前具身的开源模型上还比较欠缺的一些能力,小编也希望这次开源能够对具身智能行业有比较好的补充,让大家具备更好地用小编的基础模型,去做一些长程任务、化解一些难办任务。
XM外汇报导:
要化解这些长程任务,就需要更好的语言遵循、更好的空间以及因果的推理,也希望小编这种端到端的推理、规划加动作的执行模型,具备发挥作用,被社区用起来。
概括一下,
泓君:从而诸位们模型主打的点是什么?我觉得行业里面做模型玩家们,方向都还挺不一样的,比如有些是专注在精细的处理上的,像谷歌就很擅长于折纸的这些动作,像PI是希望有更强的泛化能力。如果用一句话去总结诸位们的优势,诸位觉得诸位们在机器人领域最关注的点是什么?
王昊:小编最关注的点是机器人的泛化和它的长程任务的化解能力。化解长程任务就意味着,它一定得有比较强的泛化能力,考虑到化解任何一个长序列的任务,它背后面临的都是变化的场景,这个任务可能遇到各种失败情况、各种没见过的处理对象,从而都需要它有很强的泛化。
泓君:比如那些长而难办的状况,请大家举一个例子。
XM外汇认为:
图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS
XM外汇专家观点:
王昊:其实小编在现实中把机器人用到任何一个场景,都是长而难办的。比如我要完整地把一个餐桌收拾好,它就是一个长而难办的任务,考虑到诸位要处理对象的种类很多:诸位可能有硬的东西的处理,比如说餐具;也有一些液体需要去处理,比如把食物残渣、流体倒到固定的地方;诸位还可能有很多不规则物体的处理,比如说垃圾、残留物;有很多柔性的东西需要去处理,比如说擦桌子,折叠毛巾等等;可能需要把不同的东西放在不同的位置、还要比较小心地去处理可能洒出来或者其他的情况。
从而在收拾餐桌这个任务中,它执行起来并没有固定的顺序,说先做什么、后做什么,都是在一个长程任务里面,把各种子任务给穿插起来。人其实很难划分每个任务的边界是什么,这种任务就得靠模型端到端自主去决策、实时去规划,把整个任务完全做完的。
需要注意的是,
泓君:那在诸位们实验室里面,评测机器人任务做得如何时,实际训练是什么样的场景?
与其相反的是,
王昊:小编实际训练虽然也包含了其他的一些场景,但还是以家庭的场景为主,考虑到家庭场景其实基本上已经包含了具身智能需要化解的所有任务。像收拾整个餐桌、布置餐具、收拾整个卫生间、收拾房间,这些都是小编的训练任务,小编也实实在在地看到,机器人在处理这些长序列的闭环任务时,体现出来了处理能力、泛化能力的进步,这点确实让小编的信心大增。小编也希望能借助自变量的开源模型,让大家看到现在的基础模型,在化解长程任务这种泛化场景的时候所体现出来的能力。
概括一下,
03 模型架构与技术路径
XM外汇用户评价:
泓君:我注意到不管是PI还是自变量,都是在做开源模型,为什么大家想做开源?开源对整个生态的好处是什么?
柯丽一鸣:我觉得能和业界、社区分享一下模型,并且能够帮助到大家很快地上手,可能也是在变相地降低机器人模型研究的一个入门门槛吧。其实在公司内部,开源也是一种(研发的)过程,就是从决定要开源,然后抽调大家把刚刚发表的研究去重构代码,然后做测试,再和社区的一些开发者沟通看能不能跑得起来。这是一项不容易的工作,但是真的看到小编的模型,在一些小编自己都没想到的机器人上面跑起来了、别人能用小编的模型做很多不同的实验,还是很开心的,现在大家都很乐意去开源,我觉得是很好的氛围。
换个角度来看,
图片来源:X.com
概括一下,
泓君:我看得出来诸位很热爱机器人。
王昊:我一直都觉得开源是非常关键的事情,开源意味着小编具备站在巨人的肩膀上继续前进。小编具备基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司具备从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校、或者一些小型的企业,他们可能没有能力去做基础模型,但是如果能够利用这些基础开源模型,他们就具备去做应用,把它用到各个方向,丰富整个生态,这也是一个非常关键的事情。
但实际上,
AI 的研究我觉得跟大模型之前有很大不一样。过去,小编具备看到AI和大模型的研究是非常离散的,在真正形成一个社区之前,可能做研究的只有两、三个人,大家疯狂地研究一个算法,更多是以论文发表作为第一要务,目的是占据技术的主动权。但有了社区和整个开源体系之后,大家更在乎的是,怎么在一个工程化的体系下,把这个工程基础打好,让这个社区更加繁荣?个人是通过什么手段给社区做贡献?大家的荣誉反而来自于这样的事情。这样也就会促使开源模型的技术不停地发展。从而我觉得开源是一个非常好的事情,既具备从中学习到新的东西,也具备看到诸位的东西可能对别人帮助。
可能你也遇到过,
泓君:大家觉得现在模型公司在判断一个模型好坏的核心因素是什么?现在大家不仅在拼各自采集的数据质量,同时在模型层可能有非常多不一样的技术路径,比如说是不是用高频控制的手段,是不是用 system 2+system 1的两个system的架构?大家具备聊一下模型层上不同的技术路径,以及诸位们看好的手段?
综上所述,
图片来源:自变量机器人-开源具身智能基础模型WALL-OSS
王昊:从自变量机器人公司的角度来讲,小编是非常相信,数据驱动的端到端的模型搭建的手段的,小编开源了WALL-OSS模型,也是基于这样架构去构建的。不管有多少模态、不管诸位是语言、视觉还是动作,它们都应该在同一个空间下被表征、被对齐,分层对它们来讲就是一个非常不利的因素,从而小编应该尽可能避免人类的分层带来信息的损失。
但是从另外一方面来讲,诸位都端到端训练了,那模型具备做得很大,具备做到几百亿、千亿的矩阵模型,那真正要去利用的时候怎么办?不可能在端侧需要非常高频控制去部署这么大模型,从而在推理的时候,小编反倒觉得模型是具备分开的,具备把更慢的任务过程具备放在云端去处理,更快的任务过程放在物理端侧,再由梯度回传更新整个系统参数,这个过程是非常非常关键的。
来自XM外汇官网:
泓君:小编说其实两层架构的模型,它有一点点类似于人脑的大脑跟小脑,比如说有一层负责理解与规划,还有一层就是负责高频输出的控制,就像大脑去掌管认知跟决策,小脑去掌管运动控制。为什么诸位们不用这样的一个架构?
王昊:小编是一种端到端的训练,很难在模型内部把某些参数完全分成system 2,比如把某些系统分成快系统、直觉系统等,但是小编具备训出一个非常大的端到端模型,它具备具备非常强的具身通用能力,让具身的通用能力既包含理解推理,也包含动作生成。
站在用户角度来说,
但诸位实际在部署的时候具备有很多手段,比如把擅长动作部分给蒸馏压缩出来,然后擅长语言推理、视觉推理的部分给它放在云端等等。利用类似的手段部署,在推理过程中做很多优化,但训练的时候它还是一个统一架构。
泓君:就是推理跟控制在训练的时候是在一起的。那Kay诸位们是怎么做的?
XM外汇资讯:
图片来源:Physical Intelligence
需要注意的是,
柯丽一鸣:小编现在还是非常开放的一种态度,小编觉得现在机器人大模型还没有达到像GPT-2的时刻,小编希望能够尽快地达到这个地步,但是现有的模型和表现还是有一些差距。数据和数据驱动的算法是小编最看重的东西,但是具体怎么样去设计这个算法?模型的架构如何搭建?甚至硬件系统怎么设计?数据怎么收集的?我觉得一切工作还是为了数据驱动在服务。
XM外汇消息:
泓君:从而它到底是把推理跟控制分开做成两个,还是说端到端的化解是完全放在一起?诸位觉得这个其实反而不是现在最关键的状况,可能这几种路径都具备,我感觉现在整个机器人模型领域大家的技术路径看起来也是没有统一的。
柯丽一鸣:我觉得这句话非常有意思,我最近在和一个学弟吃饭的时候还在聊,考虑到大概从三、四年前启动,小编能感知到整个行业是有变化的,之前学术界会更加的散一些,大家的方向、想法、算法还有关注的状况都非常的不一样,而现在自从 VLA 就视觉语言动作模型出世以后,变得流行起来,而且很多人跟进,反而让我觉得现在越来越多的方面启动趋同化了。
泓君:诸位觉得趋同化表现在哪方面?从哪些各种各样不同的方向变成了同一个方向?这个同指的是什么?
柯丽一鸣:其中之一是模仿学习。我是2018年启动做模仿学习的,那个时候行业研究不多,也没有很多真机的研究具备 follow ,在当时会觉得这是一个不那么主流或者大众的一个想法,2018年当时是已经看到了波士顿这个跳,毕竟人形机器人跳即使到现在直接用模仿学习,可能也是一个比较难的挑战。
业内的很多人开玩笑的时候就会说, 60 年代咱机器人就把人类送上月球了,机器人就朝着火星去了,这是成功的机器人的方法,它就直接变成火箭学科了,只有小编这些机器人研究者还没搞明白它怎么做成功的,还在这里搞机器人,虽然是玩笑,但也描述这个行业内,有一波又一波的接力探索,就包括 2000 年左右自动驾驶的探索,还有后面这些人形机器人,波士顿动力为首的这些力量。
XM外汇快讯:
2000 年初,其实还有一个Willow Garage,也是在美国机器人学术界里面比较有名、当时很红火的一家创业公司,当时他们就主推了一个叫PR 2 的机器人,也算是移动、但不是人形机器人的一个老祖宗。从而从之前那个时代看的话,我会觉得大家的研究方向都不一样,有的人做车、有的人做手,这些都是散布在机器人行业里各处的,而现在确实考虑到大模型的红火,模型的通用性被强调,很多人启动想说能不能把这些东西糅合在一起,这算是一个非常有意思的趋同化的发展吧。
XM外汇快讯:
Willow Garage,图片来源:Business Insider
通常情况下,
泓君:我看到现在业界,从创业方向看的话,大家又有很多的不一样,比如说有足式机器人,下面是一个人形机器人自己走路的;还有轮式机器人,它可能就注重于手部的处理,走路的部分它用轮子滚就具备了。很多公司也在想,我能不能有一个上半身跟下半身都能同时处理的机器人?考虑到很多机器人它可能要么上半身,要么下半身,但整体上大家可能都想把模型做得更大、模块做得更通用。
柯丽一鸣:我觉得“同”说的是,很多原来做在不同形态机型上的人,会用不同方法,现在大家都非常的开放,会说小编要不要试一试视觉语言的这种大模型,诸位说的这种上半身、下半身的形态,其实 π₀.₅做的就是这个事。
XM外汇行业评论:
泓君:Kay觉得现在整个机器人模型连GPT-2它的水平都不够,王昊诸位怎么看?
从某种意义上讲,
王昊:我认为到GPT-2的水平了。用这个类比的话,GPT-1基本上是一个概念验证,通过预训练加数据的手段,具备处理一些任务。但到GPT-2的时候,小编启动验证它规模化的力量,通过大幅的增加模型参数和训练数据,就具备展示出规模化带来的能力提升。可能小编规模再做得更大,就能到GPT-3的水平了,大家就能看到很多能力的涌现了,从而我会觉得现在就是在GPT-2的这个阶段。
小编现在基本上已经知道:规模化是唯一的可靠路径了,从而小编要在这个阶段,疯狂地积累数据,提升模型规模,同时搭建接受具身智能的各种基础设施,从而说人形机器人目前是已经处于GPT-2的阶段是比较客观的。
据相关资料显示,
图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS
泓君:那诸位觉得机器人领域到定义的GPT-3时刻,大概还有多长的一段路要走?
请记住,
王昊:现在在谈小编在机器人领域的GPT-2到GPT-3 ,从语言模型来讲,是有一个不一样的地方。当年在做语言模型时候,大家不知道这条路线是否真的具备走通,中间产生了很多分散式的探索又汇聚的过程。现在小编是明确的知道、而且看到了这种规模化带来的提升,从而对于小编来讲,路径和目标更加明确、更加唯一,从而我预测会在1~2年的时间,小编完全具备达到GPT-3的这个水平。
泓君:要1~2年的时间还挺快的。我注意到在美国,小编聊起机器人的话,大家都是想做这种通用机器人,然后再朝一个超大规模的模型做,如果类比 XM外汇开户 于自动驾驶的话,就是美国上来就想做的是L4、L5级的自动驾驶。但是小编看到中国的发展方向,我感觉还是有很多的小而精的创业路线,就好比中国企业在做自动驾驶的时候,首先想到的是能不能在一个园区、一个码头,把这个场景先落地了,做一个非常垂直的小而精的产业。二位怎么看机器人的这两种手段,以及在产业的发展上,最终结果会有什么不一样?哪条路径能跑出来?
这你可能没想到,
王昊:我觉得这个得结合中美各自的优势来看这个状况。确实美国的现在路径就是自上而下的不计成本的,他们会优先做一个接近于AGI的超大模型,有这个基础之后,再去想应该怎么去做。这也是考虑到美国在算力上的优势,最顶级的芯片、最大量的算力集群都在美国,从而路径更加倾向于用无限的算力,去探索能力的边界。
然而,
但中国其实芯片上确实有一定的限制,从而这也倒逼了中国的企业,研究思考在有限的算力下如何实现更高的效率,但说中国企业现在在走小而精的技术路线,我倒不是很同意这一点。
据报道,
中国其实是拥有全球最大的互联网生态移动应用场景,这个场景优势以及中国在硬件领域拥有非常完善的产业链,这个是美国其实没法比的。其实国内有很多顶尖的研究机构和非常好的创业公司,都是非常深刻地去从第一性原理的角度去思考,非常深刻地去理解Scaling law这件事情,它其实是通往AGI的必经之路。
XM外汇快讯:
小编坚信必须得有一个强大的、无所不能的基础模型,才有可能把这基础模型用到各种垂直领域,让它得到更加高效的部署,但这个过程不能反过来,必须得有大而通用的基础,才会有小而精的发展。在实现的路径上,其实国内更像是上下结合,双轨并行,一方面尽可能多的去考虑场景,尤其是考虑这种通用泛化的场景可能带给小编什么,同时又去迭代小编自己的通用基础模型的能力,才能更快地让机器人在现实世界获得更好的反馈,帮助大家实现商业闭环以及启动形成数据飞轮。
从某种意义上讲,
图片来源:自变量机器人
泓君:从而诸位个人也是想做通用的模型的?
王昊:对,小编一定会去做通用的模型,这个是很关键的。
柯丽一鸣:我觉得现在两边各自的生态环境有很多的历史因素。一方面国内经济高速发展,经验足够,很多创业的成功,都是考虑到公司活下来了、公司商业化能够做好,就促使了国内创业的人会从化解状况、化解使用者的需求来出发,因此会有很多人去深耕垂直领域。之前我还在网上看到什么中国的除草机器人“暴杀”这个欧美家庭,看到它以后,我觉得我都要给我朋友去安利,我觉得中国企业是很擅长做这样一个商业化的一个事情。
XM外汇行业评论:
同时,中国制造业摆在那里,机器人确实是有很大的硬件需求,在国内针对商业需求做硬件这个优势,现阶段来看,就没有谁能够比得过国内。因此国内现在的生态里,很多人的创业都是一边保证着商业的成功,一边做一些其他探索。
之前我说自己毕业的这一年比较幸运,考虑到如果早两年毕业(可能我就做不下去了),当时有很多(早毕业的)朋友,他们机器人研究做得很优秀,可是都转行了,都转去做大语言模型、做强化学习。做机器人能让诸位锻炼到技术,但并不是做机器人本身,与其说美国很多公司一直都在做大而通用的模型,而不如说是这个时代恰巧让小编在2024年前后,涌现了一批相信这个道路的人。
尤其值得一提的是,
这个恰巧的因素也是归功于OpenAI把大语言模型这件事做通了,给整个行业的一个反思和震撼。直到现在,我在加入PI的时候,和他们聊天讨论要不要去做,我就在问:诸位们做人型机器人行吗?诸位们要做人型的话是不是要烧很多钱?道路怎么走?商业化怎么走?这公司怎么活下来呀?从商业化的角度上来说,其实并不是那么明朗的一件事情,从而我才会感叹这些公司真的是凤毛麟角,能够有这么一个时机成立,能够有人去相信他也许能把事情做成。
根据公开数据显示,
而在这样的公司出现之前,其实美国的工业界是有很多机器学习的应用公司的,其中可能比较有名,也和小编公司渊源颇长的一个公司,就是Covariant Robotics,这个是伯克利的一位非常有名的教授所创立的,这些个人的创业的经历启发到了后面的人。考虑到在外界看来, Covariant就是考虑到深耕了一个商业的点,从而它商业做成了,但是它通用就没有做得那么好。小编公司最大的目标是想要做通用、想要做数据驱动,从而小编是很小心地避免做一些短期的商业项目,有这么一个历史因素,导致了现在的公司生态是这样。
有分析指出,
图片来源:Covariant Robotics
站在用户角度来说,
泓君:我理解Covariant其实更多的是做灵巧手,而不是在研究模型。
大家常常忽略的是,
柯丽一鸣:这件事情有点好笑,考虑到他们公司刚刚起步的时候,创始人Peter Abbeel作为机器学习机器人的一个领军人物,也表达过他们想把机器学习的机器人做到现实生活里,做到通用,当然可能是考虑到他们在物流上面做的太成功了,大家就记得他们的另一种模样了。
XM外汇专家观点:
泓君:从而他们内部也是在研究通用的化解方案跟模型层的化解方案?
根据公开数据显示,
柯丽一鸣:我相信他们在早期的时候应该是有这种探索的,考虑到当年他们启动做的时候,确实没有人知道机器学习、机器人的应用能做成什么样的,从而他们肯定是做了一些探索的,现在的很多企业和研究者就是受到他们的经验的启发,挑选走了现在的路。
其实,
04 商业化与落地前景
泓君:我看大家在研究机器人的时候,都希望机器人能够帮大家做一些家务,比如说叠床单、叠衣服,把碗塞进洗碗机,大家觉得未来真的能有个这样的家用机器人帮小编做家务吗?诸位们觉得还需要多久才能拥有这样的通用型机器人?
更重要的是,
王昊:做家务看似容易,但我觉得具备作为一个完美的机器人的图灵测试了。考虑到这个过程包含了具身智能机器人领域所有的精细动作,比如切菜,要有精细的力道控制;一些易碎东西处理时,要有非常丰富的感知;也有一些长程规划,比如得看菜谱去做菜、看描述书去利用某个电器、以及各种意外情况的处理等等,基本上已经包含了机器人的所有挑战。
XM外汇认为:
要完全实现到这个程度,还是得分步走。我觉得在两、三年以内,小编具备在半结构化的环境里面,让机器人做一些容易的事,比如仅限于厨房内,帮诸位做一些容易的菜、洗碗等等,这些我觉得还行,但说如果要在完全开放的厨房里面、所有的事情能做到,我觉得还需要五年左右的时间。
图片来源:自变量机器人
通常情况下,
泓君:五年左右,实现机器人在厨房里面做饭、洗碗?
王昊:对,我觉得是有可能去实现的。但那时还是有很多情况需要大家容忍,比如虽然机器人在各种任务上的成功率都比较高了,但也并不是100%,还是存在失误的可能,从而如果小编允许机器人具备和人协作、获得人类的帮助,我觉得5年是具备进入到家庭里面的。
我现在是比较乐观的,考虑到我觉得机器人领域的发展走在正确的道路上,有了Scaling law这样迅速发展的规律,这在整个人类的历史演进中,我都觉得很幸运的事情,考虑到有一条看起来很明确路径,具备告诉小编怎么做:诸位只要投入算力和数据、迭代模型的架构、提升机器的能力,那就能肉眼可见地看到机器人的提升。
从而虽然现在有很多状况,让小编觉得很困难,但放在5年后再去看,都是具备被化解的,而且模型一定具备跨越到一个阈值、进入到新的阶段,从而我预测5年这个时间是非常合理的。
令人惊讶的是,
另外关于5年这个时间点,其实也需要审慎一点,考虑到机器人不像纯软件那样具备轻资产迅速迭代,机器人还是受限于物理世界的物理定律,硬件得发展,还要全方位突破数据、算法、供应链、商业模式等等因素,才有可能真正做到那个地步。
概括一下,
泓君:我觉得是一个蛮大胆的预测。
XM外汇报导:
柯丽一鸣:我觉得5~10年落地应该是具备的。现在的模型能力和算法显然还没有达到“小编只要商业化它就能做出产品”的这个地步,但行业的迭代速度确实非常快,再加上大家有这么多的热情和投入,我相信在两、三年里,甚至可能每一年,都会有新的很大的变化。
不可忽视的是,
另外,小编具身智能行业其实和自动驾驶、甚至火箭升天这些传统的机器人行业有些不一样的地方。小编可能更像扫地机器人,就是最早的扫地机器人其实不完美,需要使用者明白它能做什么、不能做什么,这就是一个比较好的商业化典范。以这个为目标的话,我保守估计是需要5~10年做出这样的产品,它可能偶尔会出错,但是它犯的错是在使用者的范围里的,这样也能成为一个具备帮到使用者的产品。
据相关资料显示,
我有个状况很好奇,有的机器人公司是以“产业化”为目标的,想要做一些商业化应用的东西,这些公司该如何兼顾商业化与研发?
简要回顾一下,
图片来源:自变量机器人
王昊:我觉得这个状况挺好的。考虑到作为创业公司,从第一天小编就在思考,怎么做既能仰望星空,也能脚踏实地?由于现实的因素,不可能达到AGI再去思考商业化,小编现在的策略就是,尽可能在小编通用模型的基础上,让它进入一些场景里做一些事情,这个场景必须和最终想实现的通用场景是比较接近的、它是具备去泛化的,从而小编尽可能的不去碰那些比较封闭的场景。
像一些公共服务、养老服务的场景就非常好,这样场景和通用机器人的最终应用场景有一些类似的地方,能涉及一些难办的任务,比如和人的接触,也涉及到没有那么难办的,比如只是打扫卫生、拿东西、处理食材等等。从这个角度来看,这些就是好的场景,考虑到和最终的目标接近,诸位具备在这些场景里,不断地迭代、检验通用模型的能力,也具备获得非常宝贵的数据反馈。但要保持这个挑选初心,很关键的一点是:得有很强的商业化路径的定力。
必须指出的是,
另外一个比较关键的点,是公司的组织能力。考虑到一个公司的组织能力、组织结构,决定了这个公司的上限,我觉得公司一定要以通用模型、以基础模型作为目标,达到一个完全没有壁垒、高效协同的一个组织,才可能促使诸位在中间迈出的每一步都不会走错,最终能使诸位达到终极目标。
有分析指出,
泓君:从而诸位是比较注重训练的场景是否能有商业化应用的,而不是一个在封闭化场景里面就能实现的一个需求。刚刚说的家用机器人帮小编做饭、洗衣、叠被子,这样的利用场景能不能让机器人有足够销量,去养活一个机器人公司?
王昊:我觉得是很有希望的。考虑到现在整个机器人的产业的规模还没有起来,从而等规模起来后,硬件成本还有非常大的降低空间。随着模型水平的提升、加上硬件成本降低,几年后的价格,会让使用者的接受度更高。
说出来你可能不信,
其次从这个模块角度来讲,如果小编具备帮普通使用者去做很多事,大家会非常乐意接受这样的产品。现在大家难以接受机器人,是考虑到机器人似乎只能跳跳舞、做一些情绪价值的陪伴,好像没有其他模块,以前机器人没机会向普通使用者展示各种应用,但未来我觉得是有很多展示机会的,这个想象的空间是很大的。返回搜狐,查看更多