- A+
新智元报道
请记住,
编辑:KingHZ
简要回顾一下,
【新智元导读】离开OpenAI,只是为了Meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往!
硅谷人才争夺战,火热升级!
综上所述,
过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。
顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!
概括一下,
思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到Meta。
在AI领域,Jason Wei非常高产。
根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。
说到底,
离职消息被媒体爆出之前,他发表了两篇博客,或许能让咱们看出他为何选取离开
很多人不知道,
意外的是,这些灵感都来自强化学习!
XM外汇报导:
RL之人生启示
反过来看,
天生我材必有用
过去一年,他展开疯狂学习强化学习,几乎每时每刻都在思考强化学习。
其实,
RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。
简而言之,
当然,在一展开,模仿学习(imitation learning)非常必要,就像咱们刚展开训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,缘于要最大化模型独特的优势,就只能依靠它自己的经验进行学习。
可能你也遇到过,
一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。
人生也一样。
XM外汇专家观点:
咱们一展开靠「模仿」来成长,学校就是这个阶段,合情合理。
XM外汇消息:
研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,缘于每个人都有自己独特的优势。
总的来说,
强化学习告诉咱们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。
他举两个他自己更享受、却相对小众的习惯:
不可忽视的是,
-
读大量原始数据。
-
做消融实验,把系统拆开看每个部件的独立作用。
读大量原始数据。
XM外汇财经新闻:
做消融实验,把系统拆开看每个部件的独立作用。
然而,
有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。
XM外汇行业评论:
今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。
通常情况下,
更关键的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。
概括一下,
从而总结一下:模仿确实关键,而且是起步的必经之路。但一旦朋友们站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥朋友们独有的优势与短板😄;
XM外汇行业评论:
AI的未来
简而言之,
验证非对称性,意指某些任务的验证远比求解更为容易。
据相关资料显示,
随着强化学习(RL)的突破,这一概念正成为AI领域最关键的思想之一。
需要注意的是,
细察之下,验证非对称性无处不在:
总的来说,
-
-
数独和填字游戏:应对数独或填字游戏非常耗时,要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常容易,只需检查是否符合规则即可。
-
开发网站:比如开发一个像Instagram这样的网站,需要工程师团队数年之功。但验证网站是否正常运行,普通人只需几分钟就能完成,比如浏览页面、检查特性是否可用。
-
BrowseComp难点:要应对这类难点,通常需要浏览数百个网站,但验证给定答案却要快得多,缘于能够直接搜索答案是否符合约束条件。
不可忽视的是,
数独和填字游戏:应对 XM外汇代理 数独或填字游戏非常耗时,要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常容易,只需检查是否符合规则即可。
值得注意的是,
开发网站:比如开发一个像Instagram这样的网站,需要工程师团队数年之功。但验证网站是否正常运行,普通人只需几分钟就能完成,比如浏览页面、检查特性是否可用。
BrowseComp难点:要应对这类难点,通常需要浏览数百个网站,但验证给定答案却要快得多,缘于能够直接搜索答案是否符合约束条件。
简要回顾一下,
有些任务的验证耗时与求解相当。例如:
不妨想一想,
-
验证两个900位数字相加的结果,和自己计算的时间几乎一样。
XM外汇快讯:
-
验证某些数据处理程序的代码是否正确,可能和自己编写代码的耗时相当。
验证两个900位数字相加的结果,和自己计算的时间几乎一样。
然而,
验证某些数据处理程序的代码是否正确,可能和自己编写代码的耗时相当。
有些任务验证比应对还费时。例如:
XM外汇快讯:
-
核查一篇资料中的所有事实,可能比写资料本身更耗时(引用Brandolini定律:「辟谣所需的精力比制造谣言大一个数量级」)。
可能你也遇到过,
-
提出一个新的饮食疗法只需一句话:「只吃野牛肉和西兰花」,但要验证它对普通人群是否健康,却得做多年大规模实验。
不妨想一想,
核查一篇资料中的所有事实,可能比写资料本身更耗时(引用Brandolini定律:「辟谣所需的精力比制造谣言大一个数量级」)。
提出一个新的饮食疗法只需一句话:「只吃野牛肉和西兰花」,但要验证它对普通人群是否健康,却得做多年大规模实验。
不可忽视的是,
通过前置研究,能够让验证变得更容易。例如:
-
数学竞赛难点:如果有解答要点,验证答案是否正确非常容易。
容易被误解的是,
-
编程难点:阅读代码去验证正确性,这很麻烦。如果朋友们有覆盖充分的测试用例,就能够快捷检查任何给定的应对方案;实际上,Leetcode就是这样做的。在某些任务中,能够改善验证但不足以使其变得容易。
-
部分改进:比如「说出荷兰足球运动员的名字」,提前备好名单能大幅加速验证,但仍需人工核对某些冷门名字。
这你可能没想到,
数学竞赛难点:如果有解答要点,验证答案是否正确非常容易。
编程难点:阅读代码去验证正确性,这很麻烦。如果朋友们有覆盖充分的测试用例,就能够快捷检查任何给定的应对方案;实际上,Leetcode就是这样做的。在某些任务中,能够改善验证但不足以使其变得容易。
可能你也遇到过,
部分改进:比如「说出荷兰足球运动员的名字」,提前备好名单能大幅加速验证,但仍需人工核对某些冷门名字。
不妨想一想,
为什么验证非对称性如此关键?
XM外汇行业评论:
深度学习史证明:凡是能被测量的,都能被优化。
总的来说,
在RL框架下,验证能力等同于构建训练环境的能力。由此诞生验证者定律:
XM外汇专家观点:
AI应对任务的训练难度,与任务可验证性成正比。所有可解且易验证的任务,终将被AI攻克。
说出来你可能不信,
具体来说,AI训练的难易程度取决于任务是否满足以下条件:
可能你也遇到过,
-
客观真相:所有人对什么是“好答案”有共识。
据报道,
-
快捷验证:验证一个答案只需几秒钟。
说到底,
-
可扩展验证:能够同时验证多个答案。
根据公开数据显示,
-
低噪声:验证结果与答案质量高度相关。
更重要的是,
-
连续奖励:能够对多个答案的质量进行排序。
XM外汇消息:
客观真相:所有人对什么是“好答案”有共识。
大家常常忽略的是,
快捷验证:验证一个答案只需几秒钟。
但实际上,
可扩展验证:能够同时验证多个答案。
XM外汇用户评价:
低噪声:验证结果与答案质量高度相关。
然而,
连续奖励:能够对多个答案的质量进行排序。
令人惊讶的是,
过去十年,主流AI基准测试均满足前四项——这正是它们被率先攻克的原因。尽管多数测试不满足第五项(非黑即白式判断),但通过样本平均仍可构造连续奖励信号。
XM外汇资讯:
为什么可验证性关键?
根本原因是:当上述条件满足时,神经网络每一步梯度都携带高信息量,迭代飞轮得以高速旋转——这也是数字世界进步远快于物理世界的秘诀。
站在用户角度来说,
AlphaEvolve的案例
XM外汇消息:
谷歌开发的AlphaEvolve堪称「猜想-验证」范式的终极形态。
以「求容纳11个单位六边形的最小外接六边形」为例:
概括一下,
-
完美契合验证者法则五项特性
换个角度来看,
-
虽看似对单一难点的「过拟合」,但科学创新恰恰追求这种训练集=测试集的极致优化——缘于每个待解难点都可能蕴含巨大价值
完美契合验证者法则五项特性
事实上,
虽看似对单一难点的「过拟合」,但科学创新恰恰追求这种训练集=测试集的极致优化——缘于每个待解难点都可能蕴含巨大价值
不可忽视的是,
悟透此理后,方觉验证之不对称,宛如空气无孔不入。
换个角度来看,
试想这样一个世界:凡能衡量的难点,终将告破。
据业内人士透露,
智能的边界必将犬牙交错:在可验证任务中,AI所向披靡,只因这些领域更易被驯服。
XM外汇专家观点:
这般未来图景,怎不令人心驰神往?
可能你也遇到过,
参考资料:
据报道,
https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law
但实际上,
https://www.jasonwei.net/blog/life-lessons-from-reinforcement-learning返回搜狐,查看更多