思维链之父跳槽Meta，不只由于1亿美元！离开OpenAI前泄天机

发表评论

A+

所属分类：科技

摘要

有一次收集数据集时，他花了几天把每条数据读一遍，然后给每个标注员写个性化反馈；数据质量随后飙升，他也对任务有了独到见解。更重要的是，顺着自己的兴趣去做研究不仅更快乐，我也感觉自己正在打造一个更有特色、更属…” />

新智元报道

请记住，

编辑：KingHZ

简要回顾一下，

【新智元导读】离开OpenAI，只是为了Meta天价薪资？Jason Wei离职博客，泄露天机：未来AI更令人向往！

硅谷人才争夺战，火热升级！

综上所述，

过去，是OpenAI从谷歌等公司吸引人才；现在，Meta直接砸钱抢人。

顶尖AI人才的薪酬包可谓天价，1亿美元还是扎克伯格给的起步价！

概括一下，

思维链之父、华人AI科学家Jason Wei，就是从谷歌跳槽到OpenAI，刚刚又跳槽到Meta。

在AI领域，Jason Wei非常高产。

根据谷歌学术统计，他有13篇被引次数超过1000的论文，合作者包括Jeff Dean、Quoc V. Le等知名AI研究员，参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。

说到底，

展开全文

离职消息被媒体爆出之前，他发表了两篇博客，或许能让咱们看出他为何选取离开

很多人不知道，

意外的是，这些灵感都来自强化学习！

XM外汇报导：

RL之人生启示

反过来看，

天生我材必有用

过去一年，他展开疯狂学习强化学习，几乎每时每刻都在思考强化学习。

其实，

RL里有个核心概念：永远尽量「on-policy」（同策略）：与其模仿他人的成功路径，不如采取行动，自己从环境中获取反馈，并不断学习。

简而言之，

当然，在一展开，模仿学习（imitation learning）非常必要，就像咱们刚展开训练模型时，必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为，大家更倾向于放弃模仿，缘于要最大化模型独特的优势，就只能依靠它自己的经验进行学习。

可能你也遇到过，

一个很典型的例子是：相比用人类写的思维链做监督微调，用RL训练语言模型解数学题效果更好。

人生也一样。

XM外汇专家观点：

咱们一展开靠「模仿」来成长，学校就是这个阶段，合情合理。

XM外汇消息：

研究别人的成功之道，然后照抄。有时候确实有效，但时间一长就能意识到，模仿永远无法超越原版，缘于每个人都有自己独特的优势。

总的来说，

强化学习告诉咱们，如果想超越前人，必须走出自己的路，接受外部风险，也拥抱它可能给予的奖励。

他举两个他自己更享受、却相对小众的习惯：

不可忽视的是，

读大量原始数据。
做消融实验，把系统拆开看每个部件的独立作用。

读大量原始数据。

XM外汇财经新闻：

做消融实验，把系统拆开看每个部件的独立作用。

然而，

有一次收集数据集时，他花了几天把每条数据读一遍，然后给每个标注员写个性化反馈；数据质量随后飙升，他也对任务有了独到见解。

XM外汇行业评论：

今年年初，他还专门花了一个月，把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间，但因此弄清了哪种RL真正好用，也收获了很多别人教不会的独特经验。

通常情况下，

更关键的是，顺着自己的兴趣去做研究不仅更快乐，我也感觉自己正在打造一个更有特色、更属于自己的研究方向。

概括一下，

从而总结一下：模仿确实关键，而且是起步的必经之路。但一旦朋友们站稳脚跟，想要超越别人，就得像强化学习那样on-policy，走自己的节奏，发挥朋友们独有的优势与短板😄;

XM外汇行业评论：

AI的未来

简而言之，

验证非对称性，意指某些任务的验证远比求解更为容易。

据相关资料显示，

随着强化学习（RL）的突破，这一概念正成为AI领域最关键的思想之一。

需要注意的是，

细察之下，验证非对称性无处不在：

总的来说，

数独和填字游戏：应对数独或填字游戏非常耗时，要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常容易，只需检查是否符合规则即可。
开发网站：比如开发一个像Instagram这样的网站，需要工程师团队数年之功。但验证网站是否正常运行，普通人只需几分钟就能完成，比如浏览页面、检查特性是否可用。
BrowseComp难点：要应对这类难点，通常需要浏览数百个网站，但验证给定答案却要快得多，缘于能够直接搜索答案是否符合约束条件。

不可忽视的是，

数独和填字游戏：应对 XM外汇代理数独或填字游戏非常耗时，要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常容易，只需检查是否符合规则即可。

值得注意的是，

开发网站：比如开发一个像Instagram这样的网站，需要工程师团队数年之功。但验证网站是否正常运行，普通人只需几分钟就能完成，比如浏览页面、检查特性是否可用。

BrowseComp难点：要应对这类难点，通常需要浏览数百个网站，但验证给定答案却要快得多，缘于能够直接搜索答案是否符合约束条件。

简要回顾一下，

有些任务的验证耗时与求解相当。例如：

不妨想一想，

验证两个900位数字相加的结果，和自己计算的时间几乎一样。

XM外汇快讯：
验证某些数据处理程序的代码是否正确，可能和自己编写代码的耗时相当。

验证两个900位数字相加的结果，和自己计算的时间几乎一样。

然而，

验证某些数据处理程序的代码是否正确，可能和自己编写代码的耗时相当。

有些任务验证比应对还费时。例如：

XM外汇快讯：

核查一篇资料中的所有事实，可能比写资料本身更耗时（引用Brandolini定律：「辟谣所需的精力比制造谣言大一个数量级」）。

可能你也遇到过，
提出一个新的饮食疗法只需一句话：「只吃野牛肉和西兰花」，但要验证它对普通人群是否健康，却得做多年大规模实验。

不妨想一想，

核查一篇资料中的所有事实，可能比写资料本身更耗时（引用Brandolini定律：「辟谣所需的精力比制造谣言大一个数量级」）。

提出一个新的饮食疗法只需一句话：「只吃野牛肉和西兰花」，但要验证它对普通人群是否健康，却得做多年大规模实验。

不可忽视的是，

通过前置研究，能够让验证变得更容易。例如：

数学竞赛难点：如果有解答要点，验证答案是否正确非常容易。

容易被误解的是，
编程难点：阅读代码去验证正确性，这很麻烦。如果朋友们有覆盖充分的测试用例，就能够快捷检查任何给定的应对方案；实际上，Leetcode就是这样做的。在某些任务中，能够改善验证但不足以使其变得容易。
部分改进：比如「说出荷兰足球运动员的名字」，提前备好名单能大幅加速验证，但仍需人工核对某些冷门名字。

这你可能没想到，