李飞飞一年前究竟说了啥？怎么又火了

发表评论

A+

所属分类：科技

摘要

虽然多模态大语言模型也能看图像，但它是将其他模态硬塞进这种一维token序列的底层表示中，这种一维且由人类生成的数据，可能无法很好地表示物理世界，造成信息损失。基于语言信号训练的模型在物理世界任务中表现差…” />

闻乐发自凹非寺

值得注意的是，

量子位 | 公众号 QbitAI

XM外汇专家观点：

大R XM外汇官网 03;语言模型的局限在哪里？

从某种意义上讲，

AI教母李飞飞这样说：

大自然中是没有语言存在的，各位不会从天空中直接看到文字。

语言是一种纯粹的生成的信号。

概括一下，

大自然中是没有语言存在的，各位不会从天空中直接看到文字。

语言是一种纯粹的生成的信号。

语言信号的输出主要基于人类给的输入信号，允许说，语言是不独立于人之外的。

XM外汇行业评论：

然而，物理世界是客观存在的。从而提取、理解、生成3D世界的数据、实现空间智能和处理语言困扰时截然不同。

XM外汇行业评论：

展开全文

没想到，李飞飞一年前的访谈被扒出来，又引发大量围观。

通常情况下，

她这段话意味着，大语言模型或许还不是真正的智能。

真正的智能将是信号感知、物理以及和现实世界相结合的产物。

请记住，

真正的智能将是信号感知、物理以及和现实世界相结合的产物。

下面来看看大家还在热议些啥吧。

空间智能允许借鉴语言模型，但仍存在本质差异

这场讨论的焦点在于，现在基于语言信号训练的模型到底懂不懂物理世界的常识。

XM外汇报导：

首先，回顾一下李飞飞的说法。

通常情况下，

她认为语言模型及当今的多模态语言模型的底层表示是一维的。它们在根本上就是执行于离散token的一维序列上，从而模型对于书面文本这种一维序列的表示是非常自然的。

综上所述，

然而，在处理空间智能困扰时，核心是世界的三维本质。

虽然多模态大语言模型也能看图像，但它是将其他模态硬塞进这种一维token序列的底层表示中，这种一维且由人类生成的数据，可能无法很好地表示物理世界，造成信息损失。

容易被误解的是，

如果直接让模型处理3D数据，那么表示类型与模型旨在执行的任务类型之间将会有更好的匹配。

而空间智能的挑战就是在于从这个真实世界中提取、表示和生成信息。

除了这个维度上的差异，从更哲学的角度来说，她认为语言是一种纯粹由生成产生的信号。自然界中并不存在预设的语言形式，也就是说语言不能独立于人类之外。

大模型能够通过学习并反刍所输入的数据，无论输入什么样的数据，模型都能用足够的泛化能力处理语言任务。这是由于语言，或者说文本的本质允许模型在生成范式下表现得出色。

令人惊讶的是，

与语言不同，3D世界是真实存在于外部的。这个世界遵循着物理定律，并因材料等多种因素而具有其自身的结构。

必须指出的是，

因此，要让模型倒推出3D世界的信息，并能够表示和生成它，在技术层面上，空间智能允许借鉴语言模型，但从哲学的范畴来看，这两者仍存在本质差异。

需要注意的是，

有人举了一堆例子来证明李飞飞的观点，同时阐述语言模型在理解物理世界时确实有局限。

基于语言信号训练的模型在物理世界任务中表现差

XM外汇行业评论：

比如用一个小实验来测试Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro三个多模态大模型的物理常识，并与人类儿童表现做对比。

事实上，

研究用Animal-AI这个用来测试动物和人工智能体物理认知的3D环境来测试大模型，让大模型通过前进/后退、左转/右转、环境描述与规划控制三个指令控制一个小角色在虚拟环境中完成任务。

容易被误解的是，

第一个实验是让大模型完成一些便捷的任务，如直接找到小球，还有一些稍难的任务，如躲开障碍物找到小球。

站在用户角度来说，

结果发现模型只能搞定最便捷的任务，稍难一点就不行了。

第二个实验是在第一个实验的基础上增加教学案例，比如演示正确做法，结果模型表现也没有明显的提升。

对比之后再看，这些大模型的表现远不及人类儿童，也比不上专门为这个环境测试的机器人。

站在用户角度来说，

还有其他研究团队设计了一个名为ABench-Physics的插件，专门用来测试大语言模型在物理推理方面的能力，核心就是想搞清楚这些模型到底能不能真的理解物理、应对物理困扰。

但实际上，

测试分两部分，Phy A由400道竞赛级别的物理难题组成，先给大模型来个基础测试。

Phy B属于动态部分：修改Phy A中题目的数字，但不改变物理原理，用来测试大模型能不能进行灵活的物理推理。

据相关资料显示，

结果显示，最厉害的模型在Phy A上的正确率只有43%，而在Phy B中模型的平均准确率下降了22.5%。

总的来说，

这阐述模型并不是真懂物理。

还有团队用视觉任务测试大模型，比如让模型判断照片中哪些物体更近，或者匹配相同的事物。

人类对这些任务的正确率能达到95.7%，而几个模型最高的正确率仅有51%。在视觉感知上，大模型还远不及人类。

尽管如此，

这些结果都进一步证明了李飞飞之前访谈中关于大模型理解真实物理世界局限性的观点。

来自XM外汇官网：

也得到了网友们的认同。

概括一下，

模型的开发确实正在扩展到将模型建立在物理与多模态理解的基础上。

通常情况下，

讨论升级

当然了，有正方就有反方。

尤其值得一提的是，

有人先是反驳了关于语言的论述。

尤其值得一提的是，

也有人认为，在某些情况下，语言描述现实的能力可能会比感知更优。

XM外汇用户评价：

还有人说模型的语言不用局限于人类的语言、文本等，人工智能或许能创造出自己的语言来理解物理世界。

可能你也遇到过，

或者，本站该思考，用语言训练大模型取得现有成就的根本因素又是什么呢？

对于这场讨论，各位又有什么样的看法呢？

参考链接：

[1]https://x.com/rohanpaul_ai/status/1965242567085490547

[2]https://www.youtube.com/watch?v=vIXfYFB7aBI返回搜狐，查看更多

发表评论取消回复