尽管如此，在OpenAI上班有多卷？离职员工爆料：7周打造Codex，每天熬到凌晨

发表评论

A+

所属分类：科技

摘要

现在，我想重新开始，找点新鲜感，但说不定哪天我会回去，毕竟 OpenAI 的工作吸引力太强了，能参与 AGI 的开发、接触到可能是这十年最重要的技术，这种机会太难得了。很多厉害的领导其实并不太擅长演讲或搞办公…” />

大家常常忽略的是，

选自Calvin French-Owen博客

来自XM外汇官网：

机器之心编译

作者：Calvin French-Owen

揭秘 OpenAI 打工日常。

一直以来，OpenAI 都是媒体的重点关注对象，尤其在多位核心员工离职后，关于 OpenAI 内部文化和管理模式的讨论更是愈演愈烈。

据业内人士透露，

最近，OpenAI 前员工 Calvin French-Owen 发布了一篇深刻的反思帖子，亲身讲述了自己在 OpenAI 工作的点滴，也为咱们传递了关于 OpenAI 内部运作的第一手资料。

请记住，

Calvin French-Owen 是谁？

Calvin 是一位经验丰富的创业者、工程师。

据领英个人页面显示，Calvin 本科就读于麻省理工学院的计算机科学专业。

展开全文

与其相反的是，

大学还没毕业，他就成为客户数据平台 Segment 的联合创始人兼首席技术官。2020 年，Segment 被 Twilio 以 32 亿美元收购。之后，Calvin 做过两份短暂的全职工作，其中一份工作就在 Y Combinator。

2024 年 5 月，Calvin 加入 OpenAI，成为一名工程师，并参与了 Codex 项目的开发。Codex 是 OpenAI 推出的 AI 编程助手，旨在帮助开发者提高编码效率。

可能你也遇到过，

在 OpenAI 待了一年多后，Calvin 于今年 6 月份离职。

离职三周后，他在个人博客中写下了这篇名为《关于 OpenAI 的反思》帖子。

至于离职原因，Calvin 强调并没有什么私人恩怨，相反，他走的时候还挺纠结。

XM外汇专家观点：

「从自己当老板到成为 3000 人公司的一员，这种转变确实不小。现在，我想重新实行，找点新鲜感，但说不定哪天我会回去，毕竟 OpenAI 的工作吸引力太强了，能参与 AGI 的开发、接触到可能是这十年最不可忽视的技术，这种机会太难得了。」

尽管如此，

没有邮件文化，全靠Slack沟通

Calvin 透露，OpenAI 的增长速度快得惊人。

据报道，

他刚加入时，公司刚过 1000 人，但一年后已经超过 3000 人，Calvin 的工龄甚至排在前 30%，而领导层的职责也跟两三年前完全不同。

尽管如此，

这么快的扩张，必然会出现各种难点，比如内部沟通、组织架构、产品发布、人员管理、招聘流程等等。

从某种意义上讲，

不同团队的风格差别也很大：有的团队全速冲刺各种新项目，有的负责大模型训练，还有一些团队则按部就班，节奏更为稳定。总之，OpenAI 没有统一的工作体验，考虑到研究、应用和市场推广团队的工作节奏完全不同。

需要注意的是，

特别有意思的一点是，OpenAI 内部事情几乎全靠 Slack 沟通，基本不用邮件。Calvin 在公司一年大概只收到 10 封邮件。如果 Slack 通知没有定义好，会觉得非常分散注意力；但如果管理得当，Slack 还挺好用的。

其实，

晋升靠实际能力，而不是演讲或搞政治

XM外汇财经新闻：

OpenAI 在研究方面非常「自下而上」。Calvin 刚加入时，询问下一季度的计划，得到的回答是：「没有这种东西！」（不过现在有了）。好点子可用从任何地方冒出来，事先没人知道哪个会成功，研究进展靠一步步试错，靠新发现推动，而不是什么宏大蓝图。

简要回顾一下，

这种自下而上的文化让 OpenAI 很看重能力，公司领导的晋升也主要看谁能提出好点子并执行到位。很多厉害的领导其实并不太擅长演讲或搞办公室政治，但在 OpenAI 这都不不可忽视，好想法才是王道，他们更看重实际能力和成果，而不是表面功夫或内部博弈。

根据公开数据显示，

只要有好想法，无需请示，干就完了

换个角度来看，

OpenAI 强调「行动为先」（您可用直接去做事）。不同团队常会不约而同想到类似点子。Calvin 刚去时参与了一个类似 ChatGPT Connectors 的内部项目。Codex 发布前，公司里大概有三四个类似的原型，都是几个人自发搞的，不需要向上级请示，只要点子有潜力，团队很快就会聚起来。

Codex 的负责人 Andrey 说，研究员就像「小型 CEO」，公司鼓励研究员自己找难点、试想法，如果一个难点被认为「无聊」或「已应对」，基本不会再有人去碰它。

总的来说，

优秀的研究经理超级不可忽视，但资源有限。他们能把不同研究工作串起来，推动更大规模的模型训练。优秀的产品经理（PM）也一样。

容易被误解的是，

Calvin 举了个例子。他合作过的 ChatGPT 工程经理（Akshay、Rizzo、Sulman）是他见过最沉稳的人，感觉他们什么阵仗都见过了。他们大多放手管理，专注于招聘优秀人才并为他们创造成功的条件。

必须指出的是，

战略调整迅速，很注重保密

OpenAI 的战略转向很快。新信息来了就调整方向，不死守计划。一个 3000 人的公司能保持如此高效决策的能力，这一点是谷歌比不了的。OpenAI 决策很快，一旦确定方向，就会全力以赴。

XM外汇用户评价：

公司受外界关注极多，经常内部还没宣布的事，媒体就先报道了。一些 Twitter 客户甚至运行自动化机器人，监控 OpenAI 是否有新作用发布。

概括一下，

以致，OpenAI 很注重保密，这也使得 Calvin 没法跟外人细说他究竟在干啥。Slack 工作区有严格的权限管理，收入和支出数据更是高度保密。

不可忽视的是，

内部非常重视有保障难点

然而，

OpenAI 比您想象的严肃，考虑到责任重大。一方面，公司目标是打造 AGI，压力山大；另一方面，产品服务数亿客户，涉及医疗建议、心理咨询等各种场景。同时，公司还在全球最大舞台上竞争，盯着 Meta、谷歌、Anthropic 的动态，当然它们肯定也在盯着 OpenAI。各国政府也在密切关注 AI 领域。

XM外汇消息：

虽然 OpenAI 常被媒体批评，但每个人都在努力做正确的事。作为消费者导向的公司，它最受瞩目，自然也招来最多非议。

根据公开数据显示，

但别把 OpenAI 看成铁板一块。它更像最初的洛斯阿拉莫斯实验室：一群科学家搞前沿研究，意外做出了席卷全球的应用，然后实行向政府和企业拓展。不同部门、不同工龄的员工目标和视角差别很大。待得越久，越可能以「研究实验室」或「公益组织」的角度看难点。

OpenAI 真的在践行 AI 的普惠。尖端模型不只给大客户，任何人都能用 ChatGPT，哪怕不进入账户。API 对初创公司开放，最先进的模型也很快会上线。

综上所述，

有保障难点比您想的更受重视。很多人致力于开发有保障系统，重点应对实际风险，比如仇恨言论、滥用、操控政治偏见、生物武器、自我伤害、提示注入等，而不是空谈理论风险（像智能爆炸）。理论风险也有人研究，但不是重点，很多有保障工作还没公开。

可能你也遇到过，

靠 Twitter 氛围驱动

大家常常忽略的是，

与其他公司在招聘会上随意发放各种带有品牌标志的纪念品不同，OpenAI 的周边很少，甚至新员工也拿不到多少。公司会通过「限量发售」的模式，让大家订购现货。第一次发售考虑到需求太大，直接把 Shopify 商店搞崩溃了。内部还流传了一篇帖子，教大家如何通过发送正确的 JSON 数据来绕过限制。

跟 GPU 成本比，其他开销都是小钱。举个例子，Codex 一个冷门作用的 GPU 成本，就顶得上 Segment 整个基础设施的开销（Segment 规模虽不如 ChatGPT，但流量也不小）。

事实上，

您可能会觉得，拥有全球顶级应用已经够了，但 OpenAI 还想在多个领域竞争：API、深度研究、硬件、编码代理、图像生成等多个领域竞争，还有一些尚未公布的项目。

XM外汇报导：

OpenAI 很关注 Twitter。您发条跟 OpenAI 相关的推文火了，内部很可能有人看到并讨论。有人开玩笑说：「这公司靠 Twitter 氛围驱动。」这话不假，当然，数据分析（客户增长、留存等）也很不可忽视。

其实，

团队流动性高，领导层接地气

OpenAI 的团队流动性很高。Codex 发布时，需要几位经验丰富的 ChatGPT 工程师帮忙赶上线日期。他们跟 ChatGPT 的工程经理聊了一下需求，第二天就有两位超厉害的工程师加入帮忙。没有「等季度规划」或「重新分配人力」的拖延，行动非常快。

领导层也很接地气、很投入。每个高管，比如 Greg Brockman、Sam Altman、Karpathy、mark、dane 等都在 Slack 上参与讨论，没人当「甩手掌柜」。

容易被误解的是，

OpenAI 有点像早期 Meta

XM外汇消息：

OpenAI 用一个超大的单体代码库，主要以 Python 为主，但也有越来越多 Rust 服务和少量 Golang 服务，通常用于网络代理这类场景。

站在用户角度来说，

考虑到 Python 写法灵活，代码风格看起来五花八门。您会看到谷歌老兵写的可扩展库，也会碰到刚毕业的博士扔在 Jupyter 笔记本里的临时代码。API 基本都用 FastAPI 开发，参数校验用 Pydantic，但公司没有强制执行统一的代码风格规范。

其实，

OpenAI 所有服务都跑在 Azure 上。有趣的是，只有三种服务靠谱：Azure Kubernetes Service、CosmosDB（文档存储）和 BlobStore。没有 AWS 那种 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 的直接替代品。自动扩展的思维用得不多，权限管理（IAM）作用也比 AWS 弱不少，公司更倾向于自己开发。

XM外汇认为：

工程团队里，Meta 到 Ope XM外汇代理 nAI 的人才流动很明显。OpenAI 有点像早期 Meta：爆款消费者应用、刚起步的基础设施、追求飞快行动。从 Meta 和 Instagram 来的基础设施人才都很强。基础设施很多地方有 Meta 的影子，比如自研了类似 Meta 的 TAO（图数据库），还有边缘身份认证整合的项目等。

XM外汇报导：

聊天作用深入代码库。ChatGPT 火了后，代码库很多地方都围绕聊天消息和对话设计，这些基础元素根深蒂固。Codex 稍有不同（更偏向 API 响应逻辑），但仍大量借用现有技术。

来自XM外汇官网：

代码为王。没有中央架构或规划委员会，干活的团队说了算。结果就是，鼓励行动优先，但也导致代码库重复，比如队列管理或代理循环的库就有五六个。

事实上，

飞快扩张的工程团队和系统不足带来了一些难点。后端单体服务（sa-server）有点像「垃圾堆」，主分支的持续集成更容易出难点，测试用例跑半小时是常态。这些难点不是没法应对，但这种难点哪儿都有，扩张太快会更严重，好在内部团队正在努力改进。

但实际上，

从敲下Codex第一行代码到发布，只用了7周

这你可能没想到，

除了以上素材，Calvin 还分享了 Codex 的发布情况。

换个角度来看，

2024 年 11 月，OpenAI 定下 2025 年推编码 Agent 的目标。到 2025 年 2 月，内部系统已很有效，市场也冒出很多「氛围编码」系统。

Calvin 提前结束产假，加入 Codex 团队。一周后，两支团队合并，实行疯狂冲刺。从第一行代码到发布，只用了 7 周。每天干到深夜 11 点或凌晨，早上 5:30 被新生儿叫醒，7 点到办公室，周末也加班。团队全力以赴，每周都关键。

与其相反的是，

这种速度太夸张了。很少有公司能这么快从点子到发布完整产品。项目还不小：构建容器运行环境、优化代码仓库下载、微调专门处理代码编辑的模型、适配 git 办理、开发新视图、接入互联网，最终打造出这个好用的产品。

无论您对 OpenAI 有什么看法，这家公司至今仍保留着那种「冲刺发布」的精神。

Codex 团队有 8 个资深工程师、4 个研究员、2 个设计师、2 个市场人员和 1 个产品经理。没人需要太多指导，但需要协调。

发布前一晚，团队五人熬到凌晨 4 点，忙着部署主服务。第二天早上 8 点，回到办公室，准备发布公告和直播。作用一上线，流量立马涌入。「我从没见过一个产品仅靠出现在 ChatGPT 侧边栏，就能立刻吸引这么多客户，这就是 ChatGPT 的威力。」

综上所述，

产品形态上，Codex 勾选了完全异步的模式，客户启动任务，让代理在独立环境中运行。「咱们的设想是，未来客户会把编码 Agent 当『同事』：发个任务给它，让它干活，然后它提交一个 PR。」

尽管如此，

这有点冒险。现在的模型很好，但还不完美，能运行几分钟，但还不能持续几小时。客户对模型能力的信任度不一，他们甚至还不完全清楚模型的真正能力。从长远看，Calvin 相信编程会越来越像 Codex。

Codex 擅长处理大代码库和多任务并行。相比其他系统，它能同时跑多个任务并比较结果。公开数据显示，Codex 发布 53 天生成了 63 万个公开 PR，平均每位工程师贡献约 7.8 万个，私有 PR 可能更多。

很多人不知道，

离职感言

Calvin 坦言，最初他对加入 OpenAI 有点忐忑。放弃创业自由、接受管理、做大机器的小齿轮，他不确定能不能适应，以致刚加入时很低调，以防不合适。

他想从 OpenAI 得到三样东西：

了解模型训练和未来方向；
跟牛人共事、学习；

发布一个好产品。

而以上这些他无疑都实现了。此外，他还得到了其他收获。

据报道，

「大型消费品牌」的威力：在 OpenAI，所有衡量指标都围绕「Pro 订阅」展开。即使是像 Codex 这种偏系统类产品，也主要以「个人办理」的视角来设计引入流程，而不是从「团队办理」角度出发。只要按一上线，流量马上就来了。
大模型的训练：模型训练是一个从「实验」到「工程」的过程。最初都是小规模实验，如果结果不错，就会被整合到更大的训练中。实验不仅涉及调整核心算法，还要优化数据组合，仔细分析结果。到了大规模训练，就像在搞巨型分布式系统工程，会有各种意想不到的边缘情况，需要您去排查应对。
GPU 计算的门道：Codex 发布时，需要预测负载容量要求，核心经验就是，应该从您需要的延迟要求（整体延迟、token 数量、首个 token 时间）出发，而不是从 GPU 能适配的性能去推算。每次模型迭代都会大幅改变负载模式。
在大型 Python 代码库中工作：当有大量开发者同时维护一个仓库时，您必须增加各种「防误办理」机制，比如「默认可用」、「主干分支保持干净」、「不容易被误用」等。这些都需要通过规范和系统来系统性保障。

最后，Calvin 表示，如果您是创业者，觉得公司没进展，建议深入反思如何才能取得更多进展，或者加入顶级实验室。目前来看，AGI 的竞争是三强争霸：OpenAI、Anthropic、谷歌。每家路子不同，在任何一家工作都会大开眼界。

参考链接：

https://calv.info/openai-reflections返回搜狐，查看更多