然而，谷歌大脑之父首次坦白！茶水间闲聊引爆万亿帝国，AI自我突破触及门槛

发表评论

A+

所属分类：科技

摘要

在谷歌的茶水间偶然碰面，吴恩达告诉Jeff Dean：「在语音和视觉上，斯坦福的学生用神经网络得到了很有前景的结果。所以，注意力机制是这篇非常开创性的论文的名字，他们在其中开发了这种基于transform…” />

值得注意的是，

新智元报道

尤其值得一提的是，

编辑：KingHZ 桃子

有分析指出，

【新智元导读】刚刚，AI界传奇Jeff Dean深度访谈重磅放出！作为谷歌大脑奠基人、TensorFlow与TPU背后的关键推手，他亲述了这场神经网络革命的非凡历程。

与其相反的是，

刚刚，「现代互联网架构之父」Jeff Dean的最新对谈流出。

根据公开数据显示，

这位AI领域的传奇，是Google Brain的奠基者，也是推动神经网络走向规模化的关键人物。

有分析指出，

从让神经网络「看懂猫」的重大突破，到TensorFlow与TPU的诞生，他的故事几乎是一部AI发展史。

在最新一期「登月播客」（The Moonshot podcast）深度访谈中，Jeff Dean回顾了个人成长经历、Google Brain的早期故事，以及他对AI未来的思考。

不妨想一想，

展开全文

节目中，他揭秘了他本人所知的一些细节和趣事：

简要回顾一下，

· 小时候，Jeff Dean打印了400页源码自学。

说到底，

· 90年代，他提出「数据并行/模型并行」概念时，还没这些术语。

大家常常忽略的是，

· Google Brain的最初灵感，竟然是在谷歌的微型茶水间与吴恩达的一次闲聊中诞生。

· 「平均猫」图像的诞生，被Jeff比作「在大脑里找到了触发祖母记忆的神经元」。

· 他把AI模型比作「苏格拉底式伙伴」，能陪伴推理、辩论，而不是单向系统。

XM外汇资讯：

· 对未来的隐喻：「一亿老师，一个学生」，人类不断教AI模型，所有人都能受益。

说到底，

超级工程师，早已看好神经网络

Jeff是工程超级英雄口中的「工程超级英雄」，很少有人像Jeff Dean这样的单个工程师，赢得人们如此多的仰慕。

很多人不知道，

主持人的第一个状况是：Jeff Dean是如何成为工程师的？

通常情况下，

Jeff Dean认为他有一个不同寻常的童年。由于经常搬家，在12年里他换了11所学校。

容易被误解的是，

在很小的时候，他喜欢用乐高积木搭建东西，每次搬家总要带上他的乐高套装。

当九岁的时候，他住在夏威夷。

综上所述，

Jeff的父亲是一名医生，但他总是对计算机如何用于改善公共卫生感兴趣。当时如果想用计算机，他只能去健康部门地下室的机房，把需求交给所谓的「主机大神」，然后等他们帮朋友们实现，速度非常慢。

令人惊讶的是，

在杂志上，Jeff的爸爸看到一则广告，买下了DIY计算机套件。那是一台Intel 8080的早期机型（大概比Apple II还要早一两年）。

简而言之，

最初，这台电脑就是一个闪烁灯和开关的盒子，后来他们给它加了键盘，可用一次输入多个比特。再后来，他们安装了一个BASIC解释器。Jeff Dean买了一本《101个BASIC语言小游戏》的书，可用把程序一行一行敲进去，然后玩，还能自己修改。

尽管如此，

这就是他第一次接触编程。

通常情况下，

后来，Jeff一家搬到明尼苏达州。全州的中学和高中都能接入同一个计算机系统，上面有聊天室，还有交互式冒险游戏。

换个角度来看，

这就像「互联网的前身」，比互联网普及早了15~20年。

根据公开数据显示，

当时，Jeff大概13、14岁，他在玩儿的一款多人在线的游戏源码开源了。

Jeff偷偷用了一台激光打印机，把400页源代码全都打印了出来，想把这款多人主机游戏移植到UCSD Pascal系统上。

XM外汇消息：

这个过程让他学到了很多关于并发编程的知识。

这是Jeff Dean第一次编写出并不不繁琐的软件。

大概是91年，人工智能第一次抓住了Jeff Dean想象力。

容易被误解的是，

具体而言，是办理lisp代码进行遗传编程。

来自XM外汇官网：

而在明尼苏达大学本科的最后一年，Jeff Dean第一次真正接触了人工智能。

XM外汇行业评论：

当时，他上了一门并行与分布式编程课，其中讲到神经网络，由于它们本质上非常适合并行计算。

那是1990年，当时神经网络刚好有一波热潮。它们能应对一些传统方法搞不定的小状况。

当时「三层神经网络」就算是「深度」了，而现在有上百层。

但实际上，

他尝试用并行的方法来训练更大的神经网络，把32个处理器连在一起。但后来发现，需要的算力是100万倍，32个远远不够。

事实上，

论文链接：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

虽然实验规模有限，但这就是他和神经网络的第一次深度接触，让他觉得这条路很对。

XM外汇财经新闻：

即便到了90年代末，神经网络在AI领域已经完全「过时」了。之后，很多人放弃了「神经网络」研究。

说到底，

但Jeff Dean并没有完全放弃。当时整个AI领域都转移了关注点，他就去尝试别的事情了。

很多人不知道，

毕业后，他加入了Digital Equipment Corporation在Palo Alto的研究实验室。

反过来看，

数字设备公司Digital Equipment Corporation，简称DEC，商标迪吉多Digital，是成立于1957年的一家美国电脑公司，发明了PDP系列迷朋友们计算机、Alpha微处理器，后于1998年被康柏电脑收购

XM外汇财经新闻：

后来，他加入谷歌，多次在不同领域「从头再来」：

但实际上，

搜索与信息检索系统、大规模存储系统（Bigtable、Spanner）、机器学习医疗应用，最后才进入Google Brain。

谷歌大脑秘辛：一次茶水间闲聊

与其相反的是，

在职业生涯里，Jeff Dean最特别的一点是：一次又一次地「从零启动」。

这种做法激励了很多工程师，证明了「影响力」不等于「手下的人数」，而是推动事情发生的能力。

据业内人士透露，

就像把雪球推到山坡上，让它滚得足够快、足够大，然后再去找下一个雪球。Jeff Dean喜欢这种手段。

通常情况下，

然后在Spanner项目逐渐稳定后，他启动寻找下一个挑战，遇到了吴恩达。

简而言之，

在谷歌的茶水间偶然碰面，吴恩达告诉Jeff Dean：「在语音和视觉上，斯坦福的学生用神经网络得到了很有前景的结果。」

XM外汇消息：

Jeff一听就来了兴趣，说：「我喜欢神经网络，大家来训练超大规模的吧。」

XM外汇财经新闻：

这就是Google Brain的开端，他们想看看是否能够真正扩大神经网络，由于办理GPU训练神经网络，已经取得良好的结果。

XM外汇消息：

Jeff Dean决定建立分布式神经网络训练系统，从而训练非常大的网络。最后，谷歌办理了2000台计算机，16000个核心，然后说看看到底能训练什么。

渐渐地，越来越多的人启动参与这个项目。

容易被误解的是，

谷歌在视觉任务训练了大型无监督模型，为语 XM外汇平台音训练了大量的监督模型，与搜索和广告等谷歌部门合作做了很多事情。

据业内人士透露，

最终，有了数百个团队办理基于早期框架的神经网络。

尤其值得一提的是，

纽约时报报道了这一成就，刊登了那只猫的照片，有点像谷歌大脑的「啊哈时刻」。

必须指出的是，

由于他们办理的是无监督算法。

值得注意的是，

他们把特定神经元真正兴奋的东西平均起来，创造最有吸引力的输入模式。这就是创造这只猫形象的经过，称之为「平均猫」。

更重要的是，

在Imagenet数据集，谷歌微调了这个无监督模型，在Imagenet 20000个类别上获得了60%的相对错误率降低（relative error rate reduction）。

XM外汇专家观点：

同时，他们办理监督训练模型，在800台机器上训练五天，基本上降低了语音系统30%的错误率。这一改进相当于过去20年的语音研究的全部进展。

因此，谷歌决定用神经网络进行早期声学建模。这也是谷歌定制机器学习硬件TPU的起源。

从某种意义上讲，

注意力机制三部曲

可能你也遇到过，

之后不久，谷歌大脑团队取得了更大的突破，就是注意力机制（attention）。

站在用户角度来说，

Jeff Dean认为有三个突破。

第一个是在理解语言方面，词或短语的分布式表示（distributed representation）。

来自XM外汇官网：

这样不像用字符「New York City」来表示纽约市，取而代之的是高维空间中的向量。

纽约市倾向于出现的固有含义和上下文，于是可能会有一个一千维的向量来表示它，另一个一千维的向量来表示番茄（Tomato）。

大家常常忽略的是，

而实现的算法非常不繁琐，叫做word2vec（词向量），基本上可用基于试图预测附近的词是什么来训练这些向量。

尤其值得一提的是，

论文链接：https://arxiv.org/abs/1301.3781

容易被误解的是，

接下来，Oriol Vinyals, Ilya Sutskever和Quoc Le开发了一个叫做序列到序列（sequence to sequence）的模型，它办理LSTM（长短期记忆网络）。

其实，

论文链接：https://arxiv.org/abs/1409.3215

值得注意的是，

LSTM有点像是一个以向量作为状态的东西，然后它处理一堆词或标记（tokens），每次它稍微更新它的状态。于是它可用沿着一个序列扫描，并在一个基于向量的表示中记住它看到的所有东西。

它是系统运行基础上的短期记忆。

通常情况下，

结果证明这是建模机器翻译的一个非常好的方法。

说到底，

最后，才是注意力机制，由Noam Shazeer等八人在Transformer中提出的注意力机制。

XM外汇财经新闻：

这个机制的想法是，与其试图在每个单词处更新单个向量，不如记住所有的向量。

简而言之，

于是，注意力机制是这篇非常开创性的论文的名字，他们在其中开发了这种基于transformer的注意力机制，这个机制在序列长度上是n平方的，但产生了惊人的结果。

大家常常忽略的是，

LLM突破触及门槛，自动化闭环颠覆人类

一直以来，LLM神经网络运作机制很难被人理解，成为一个无法破译的「黑箱」。

通常情况下，

而如今，随着参数规模越来越庞大，人们无法像理解代码一样去理解LLM。

请记住，

研究人员更像是在做「神经科学」研究：观察数字大脑的运作手段，然后试着推理背后的机制。

人类理解模型的想法，未来会怎么发展？

尽管如此，

Jeff Dean对此表示，研究这一领域的人，把它称之为「可解释性」。所谓可解释性，就是能不能搞清楚LLM到底在做什么，以及它为什么会这么做？

事实上，

这确实有点像「神经科学」，但相较于研究人类神经元，LLM毕竟是数字化产物，相对来说探测比较容易。

事实上，

很多时候，人们会尝试做一些直观的可视化，比如展示一个70层模型里，第17层在某个输入下的情况。

说出来你可能不信，

这当然有用，但它还是一种比较静态的视角。

来自XM外汇官网：

他认为，可解释性未来可能的发展一个方向——如果人类想知道LLM为何做了某种决定，直接问它，然后模型会给出回答。

根据公开数据显示，

主持人表示，自己也不喜欢AGI术语，若是不提及这一概念，在某个时候，计算机会比人类取得更快的突破。

未来，大家需要更多的技术突破，还是只需要几年的时间和几十倍的算力？

Jeff Dean表示，自己避开AGI不谈的原因，是由于许多人对它的定义完全不同，并且状况的难度相差数万亿倍。

概括一下，

就比如，LLM在大多数任务上，要比普通人的表现更强。

要知道，当前在非物理任务上，它们已经达到了这个水平，由于大多数人并不擅长，自己以前从未做过的随机任务。在某些任务中，LLM还未达到人类专家的水平。

总的来说，

不过，他坚定地表示，「在某些特定领域，LLM自我突破已经触及门槛」。

XM外汇消息：

前提是，它能够形成一个完全自动化闭环——自动生成想法、进行测试、获取反馈以验证想法的有效性，并且能庞大的应对方案空间中进行探索。

Jeff Dean还特别提到，强化学习算法和大规模计算搜索，已证明在这种环境中极其有效。

在众多科学、工程等领域，自动化搜索与计算能力必将加速发展进程。

简要回顾一下，

这对于未来5年、10年，甚至15-20年内，人类能力的提升至关不可忽视。

这你可能没想到，

未来五年规划

然而，

当问及未来五年个人规划时，Jeff Dean称，自己会多花些时间去思考，打造出更加强大、更具成本效益的模型，最终部署后服务数十亿人。

换个角度来看，

众所周知，谷歌DeepMind目前最强大的模型——Gemini 2.5 Pro，在计算成本上非常高昂，他希望建造一个更优的系统。

根据公开数据显示，

Jeff Dean透露，自己正在酝酿一些新的想法，可能会成功，也可能不会成功，但朝着某个方向努力总会有奇妙之处。

令人惊讶的是，

参考资料：

https://www.youtube.com/watch?v=OEuh89BWRL4返回搜狐，查看更多

发表评论取消回复