毕树超入职Meta后首发声：十年前怀疑AGI，如今深信AGI已至！

发表评论

A+

所属分类：科技

摘要

【新智元导读】Meta超级智能团队成员毕树超，回溯70年AI进化：从AlexNet掀起深度学习革命，到Transformer与ScalingLaw驱动大模型爆发，再到强化学习＋预训练通向AGI。而202…” />

综上所述，

新智元报道

简要回顾一下，

编辑：KingHZ

总的来说，

【新智元导读】Meta超级智能团队成员毕树超，回溯70年AI进化：从AlexNet掀起深度学习革命，到Transformer与Scaling Law驱动大模型爆发，再到强化学习＋预训练通向AGI。他相信智能并非人类都独有，AGI曙光已现！

加入Meta超级智能实验室后，毕树超首次发声：大多数人可能低估了AI的影响！

容易被误解的是，

十年前，他非常怀疑AGI，但在过去十年中，他逐渐接受了AGI，日渐笃定，甚至宣称：2025，AGI已来。

上个月，他在哥伦比亚大学和哈佛大学就人工智能发表了两次演讲。

许多参加的人都后来联系他，声称这次演讲改变了他们的AI观念。

令人惊讶的是，

展开全文

在题为《推进硅基智能前沿：过去、开放难点与未来》的演讲中，毕树超系统阐述了过去15年的技术进展、当前待解难题以及未来发展趋势

换个角度来看，

目前，他在Meta从事强化学习/后训练/智能体研究。之前，他在OpenAI领导多模态研究；他还是YouTube Shorts的主要负责人。

XM外汇专家观点：

他本科从浙江大学数学专业毕业，之后在加州大学伯克利分校获得统计学硕士和数学博士学位。

根据公开数据显示，

AGI曙光

根据公开数据显示，

最近，David Silver等人发表了《Welcome to the Era of Experience》。

他们的核心观点是：高质量的人类数据非常稀缺。

可能你也遇到过，

尽管人类文明已有几千年，但真正积累的高质量数据并不多，而且大部分文本快消耗殆尽。

因此难点是：如何生成更多的数据？

概括一下，

答案可能在于人类本身。人类的数据来源于人脑的思考，以及从真实环境中获得的反馈和奖励。

算力正在变得越来越廉价，计算机与环境的交互或许可自动生成新的知识与数据。这种手段将可能比人类自身产生数据的速度更快。

这也是为什么毕树超如此看好通用人工智能（AGI）和超人工智能（Artificial Superintelligence，ASI）的原因。

XM外汇报导：

他分享了个人对AGI研究的心路历程。

XM外汇用户评价：

一进行对通用人工智能持怀疑态度，乃因这个领域存在大量炒作。

XM外汇用户评价：

对他个人来说，最大的障碍是他曾坚定地相信：人脑是特别的，人类智能是独一无二的。

毕竟，目前许多技术，从数学角度来看，只不过改进了Tensor运算和梯度优化，本质上并不棘手。他不禁怀疑：人类真的那么难以复制吗？

通常情况下，

但随着对AI理解的加深，他进行意识到：模拟人脑的手段不止一种。如果能够用计算机模仿人类的学习手段，那为什么不这样做呢？

这就是他如今更加相信AGI的原因：

综上所述，

一方面，也许大脑并不是独一无二的，它只是生物进化的结果。虽然棘手，但归根结底它也不过是一台「生物计算机」，并不比硅基计算机更神秘。

说出来你可能不信，

另一方面，也许真正关键的因素不是结构的棘手程度，而是系统是否具备足够的规模。

AI双城记

在哥伦比亚大学，他追溯了人工智能（AI）的思想根源。

据业内人士透露，

这一切都始于1948-1950年左右。

说出来你可能不信，

当时，Alan Turing提出了一个难点：机器能思考吗？

XM外汇用户评价：

图灵提出，人工智能不应试图模仿成人的大脑（包含棘手的经验和偏见），而应设计一个不棘手的模型，尽量减少人为预设的结构，让模型通过数据自主学习。

毕树超对观众说：「这正是机器学习的核心。您构建一个几乎不含人类先验知识的系统，让它从数据中学习。」

反过来看，

他重点讲了自监督学习和强化学习。

然而，

他回顾了自监督学习、深度网络以及像Transformer这样的里程碑式架构的兴起。

不妨想一想，

他展示了计算能力和数据规模的提升（而非人工编码的知识）如何带来性能的飞跃。

自监督学习

概括一下，

2012年，出现了AlexNet。

简要回顾一下，

基本上可用说，这是第一个大规模深度学习模型，采纳了GPU和大量数据。

AlexNet错误率令人惊叹，性能之好史无前例。

综上所述，

从中，大家得到了一个启示：只要有足够的数据和计算能力，神经网络就会超越人类过去几十年手工设计的视觉算法。

XM外汇专家观点：

在当时，对于从事视觉研究的研究人员来说，是一场灾难，几十年付诸东流。

这你可能没想到，

这重新唤起了人们对神经网络的兴趣，深度学习革命进行了。

大多数人认为2012年标志着深度学习革命的进行。

然后到了2013年，谷歌发表了Word2Vec。

根据公开数据显示，

不棘手来说，「Word2Vec」用一个嵌入向量，来表示单词。

从此，单词可用进行算术运算，比如「king-man=queen-woman」。

向量运算竟然能捕捉语义关系！更关键的是，这些词嵌入在下游任务中表现惊人。

XM外汇消息：

这引发了另外两个趋势：

据业内人士透露，

（1）Word2Vec演变到一切皆可向量化（everything2Vec）。

（2）强化了计算+数据的优势，这种结合远比归纳偏差表现要好。

XM外汇专家观点：

这回应了图灵的设想：小编不想模拟成人的大脑，这意味着小编不希望在模型中加入人类的归纳偏差。

2014年，生成模型GAN出现了。

XM外汇用户评价：

GAN在生成领域石破天惊，但与自监督学习关系不大

2015年，深度学习「加速器」Adam优化器已经诞生了，进行流行。

它标准化了训练流程，终于不用再手工调参了！特别适合处理海量数据和稀疏梯度，直到今天大多数优化器都是Adam的变种。

换个角度来看，

同年的ResNet更是神来之笔！

从某种意义上讲，

当时深层网络训练就像走钢丝——梯度要么消失要么爆炸。而ResNet的「跳跃连接」（skip connection）就像给神经网络装了电梯：浅层特征可用直接跨层传输。

XM外汇专家观点：

残差连接让优化变得非常容易：右图(a)没有残差连接时崎岖不平，(b)引入残差后如瓷碗一般平滑。

据报道，

如果采用这种结构，可用确保学习起来容易得多。而且这种技巧几乎适用于所有网络架构。这就是为什么现在几乎所有网络都采用这种结构。

不可忽视的是，

不过当年，很多数学背景的人都质疑过深度学习中的这类技巧。

XM外汇消息：

豁然开朗

XM外汇资讯：

演讲的前一天，毕树超和物理教授聊天才意识到：在低维空间建立的统计直觉，在万亿参数的高维空间根本不适用！

原因是大家都生活在低维空间中，低维度的直觉难以推广到高维空间。

毕树超花了好几年才克服了这些错误的直观。

他之因此困惑一大原因在于深度神经网络需要的是非凸优化（non-convex optimization）。

必须指出的是，

当处理非凸优化时，首先担心是陷入随机的局部最小值。如果最好的结果不过是随机的局部最小值，怎么能信任结果呢？然后，有很多关于这个的研究。

很多人不知道，

让他重拾信心的第一个发现是：在高维空间里，陷入局部最优其实非常难。在三维世界看二维曲面时，局部极小值确实像深坑难爬出来。但在十亿维空间里，有无数个逃生通道！

第二个发现更妙：就算被困住，这些「局部极小值」其实离全局最优根本不远！

因此现在没人再纠结非凸优化难点了。

必须指出的是，

那再说个更颠覆的现象——过参数不会带来过拟合。

大家常常忽略的是，

在传统的统计分析领域中，如果参数数量大于数据点数量，那是一场灾难。从理论上讲，这会导致过拟合。

但深度学习模型参数动不动就是样本量的百倍！

但实际上，

作为数学统计双背景的人，这曾让他困惑不已、夜不能寐...

这你可能没想到，

直到发现：即便用随机标签训练，网络也会优先学习真实模式，

这就是著名的「双下降现象」：当过参数化模型达到插值点后，会进入广阔的零损失解空间，并自动勾选泛化性最优的解。

说出来你可能不信，

现在，终于可用说：过参数化不是bug，是feature！

然而，

ChatGPT前传

2014年，出现了第一篇关于注意力机制的论文。

很多人不知道，

从2014年到2016年，当时的主要挑战是，这些模型很难并行训练，以及梯度消失。

说出来你可能不信，

LSTM有所帮助，但也没有完全处理难点。

XM外汇资讯：

然后，Transformer就出现了。

值得注意的是，

这是过去十年中最不可忽视的论文之一。它完全消除了递归，完全依赖于自注意力。

XM外汇认为：

Transformer是一个转折点，优雅地处理了之前的局限性。

必须指出的是，

毕树超盛赞：「这是过去十年最不可忽视的架构。它高度可并行化、数据效率高，并且扩展性极佳。」

2018年，出现了GPT-1。2019年，出现了GPT-2。2020年，出现了GPT-3。

来自XM外汇官网：

毕树超认为GenAI的本质通用性（generalizable）。

令人惊讶的是，

以前，只要有数据，每个领域都可用构建一个专门的模型。这并不具备可扩展性。而GPT系列模型非常通用，可用通过零样本或少样本学习完成任务。

需要注意的是，

2020年，Scaling Law论文揭示惊人规律：算力、参数量、数据量每增加10倍，损失函数就线性下降！

总的来说，

这个定律精准预测了GPT-4的性能。虽然它终将触及天花板，但在此之前，10万亿美元级的算力投入都将持续获得回报！

说到底，

这也是《The Bitter Lesson》这篇雄文的核心：70年AI史就是「算力碾压人类精巧设计的算法」的历史！

有分析指出，

当然，作为数学系毕业生的毕树超总在追问scaling的源头——或许答案藏在数据分布的本征结构中。

说到底，

Scaling Law如何让模型顿悟？

XM外汇快讯：

看看数据分布：顶尖医生处理罕见病，普通医生处理常见病；

值得注意的是，

算术书籍浩如烟海，代数几何专著却凤毛麟角。

简要回顾一下，

智能的分布恰如幂律曲线！

更重要的是，

Scaling law的本质或许在此：每挖掘高一个数量级的「智能稀有度」，就需要十倍算力投入！

这解释了为何模型总先学通用模式。

三年前，全网争论的「能力涌现」，其实只是幂律数据遇到对数坐标的视觉把戏！

当算力突破临界点，AI「突然」学会微积分不过是捕获了数据长尾中的高阶模式！

大家常常忽略的是，

这只是一个视角难点。它并不是突然出现的，它实际上只是反映了底层数据。

据报道，

Ilya有一句名言：「模型只是想学习。」

说到底，

Transformer架构终于让AI回归本能：吃数据，吐智能！。

简要回顾一下，

过去十年，小编逐渐打破了很多对机器学习的误解。如今，主流观点是：预测本身的压缩，其实等同于理解，甚至是智能的体现。

需要注意的是，

从信息论的角度来看，Shannon把「信息」定义为「不可预测性」。「智能」可用理解为：让这个世界变得越来越不让您感到惊讶的能力。

XM外汇认为：

从这个意义上看，大语言模型在预测下一个词时，其实是在压缩语言中的各种模式。这正是人类理解世界的手段之一。

站在用户角度来说，

从认知科学的角度，人类的学习过程本质上也是压缩过程。物理定律、数学公理等手段把世界的观察总结成最小的一组规则。

因此，从信息到学习，从预测到理解，「压缩」是背后共同的核心逻辑。

但实际上，

强化学习

整个深度强化学习从2015年进行。

当时，出现了DQN网络。它可用玩多种雅达利游戏，玩得比人类好多了。

不妨想一想，

这些模型发现了很多人类想不到的策略，因此人们称之为「外星智能」（alien intelligence）。

更重要的是，

真正的核爆点在围棋上。AlphaGo的表现让人们第一次意识到：「这些模型真的有智能。」

从某种意义上讲，

AlphaGo起初是从人类棋谱中训练起来的，它结合了深度神经网络、、自我博弈（self-play）和蒙特卡洛树搜索（Monte Carlo Tree Search），最终击败了世界冠军。

到了2017年，AlphaGo Zero出现了。模型进一步升级，完全不再依赖人类数据，所有训练都来自自我对弈，堪称「AI界周伯通」！

可能你也遇到过，

2018年，AlphaZero再进一步。

其实，

2019年，强化学习扩展到了电子游戏，比如《星际争霸》。

通常情况下，

但这股热潮很快退却了，乃因人们发现：AI虽然能「打游戏」，却在现实中没有太大用处。

XM外汇认为：

直到强化学习与预训练模型结合，这一切才真正发生了变化，开启了「预训练与强化学习结合的新时代」。

根据公开数据显示，

低算力RL

尤其值得一提的是，

比如2022年的InstructGPT，它让大语言模型不仅仅是「自动补全插件」，而是能够理解和执行人类指令。

需要注意的是，

而2022年发布的ChatGPT，更是通过强化学习（特别是人类反馈强化学习，RLHF）进一步提升了交互能力。

当时，这个项目只是John Schulman等人的一个低调研究预览。谁曾想，它如今每周有超过5亿使用者采纳，彻底改变了人们获取信息的手段。

大家常常忽略的是，

但仔细一想，这跟之前提到的「游戏里的强化学习」到底有什么不同呢？

强化学习+预训练模型，可用应用到现实中更广泛、更有价值的场景中。

XM外汇认为：

关于当前AI模型的训练手段，强化学习所占的计算资源比例其实非常小，就像蛋糕上点缀的樱桃。

站在用户角度来说，

但未来如果要构建真正的AGI乃至ASI，强化学习必须发挥更大的作用，尤其是在适应未知环境方面。

据相关资料显示，

高算力RL

需要注意的是，

在过去六七十年的AI发展中，有两类技术最能随着算力增长而不断进步：

「学习」：也就是预训练；

「搜索」：通过策略探索获得新解。

「学习」：也就是预训练；

但实际上，

「搜索」：通过策略探索获得新解。

大家常常忽略的是，

而「搜索」这一方向，目前还远远不够好。

这也是为什么小编要进入AI发展的「第二阶段范式」：让预训练与高计算量强化学习真正结合起来。

从2014年的o系列模型进行，这种趋势已经出现。

站在用户角度来说，

在数学基准上AIME中的表现，开源的DeepSeek R1已经超过o1。

简要回顾一下，

这并不是一件不棘手的事，它代表了全新的计算范式：「高算力RL」。

这种范式然显著增强了模型的「个体学习」能力。

但实际上，

虽然难点还有很多值得探索，但毕树超在演讲中表示：「每隔几个月，小编就看到一些曾经被认为不可能的事情成为现实。这应该让小编重新审视所有小编仍然认为不可能的事情。」

XM外汇认为：

也许很多小编以为的不可能，其实只是知识的局限。

说出来你可能不信，

参考资料：

XM外汇消息：

https://youtu.be/E22AOHAEtu4

简而言之，

https://www.engineering.columbia.edu/about/news/exploring-pas XM外汇官网 t-and-future-ai返回搜狐，查看更多

发表评论取消回复