OpenAI如何使用Codex[译]

刘洋

2025-09-19 4294 words 9 minutes

Contents

可以参考并迁移到Claude Code, Cursor CLI,或其他IDE和CLI 中去，工具不同，场景和解决方案可以学习

引言

在 OpenAI，从安全、产品工程、前端、API、基础设施到性能工程，许多技术团队每天都在使用 Codex。大家用它来加速各种工程任务，比如理解复杂系统、重构大型代码库，或是快马加鞭地发布新功能、解决紧急故障。

我们采访了 OpenAI 的工程师，也分析了内部使用数据。在此基础上，我们整理出了一系列应用场景和最佳实践，希望能展示 Codex 如何帮助我们的团队更快地行动、提升工作质量，并从容应对规模化的复杂问题。

应用场景 1：代码理解

无论是新员工熟悉项目，还是工程师调试问题、排查故障，Codex 都能帮助团队快速理解代码库中陌生的部分。

团队常用 Codex 来定位某个功能的核心逻辑，梳理服务或模块间的关系，以及追踪系统中的数据流向。它还能揭示一些架构模式，或补全缺失的文档——这些工作如果靠人力，会相当耗时。

在处理紧急故障时，Codex 能清晰地展示组件间的交互，或追踪故障在系统中的传导路径，帮助工程师迅速进入状态。

来自我们团队的声音

“修 bug 的时候，我会用‘提问模式’，看看代码库里还有哪些地方可能藏着同样的问题。”

— 检索系统，性能工程师

“我值班的时候，会把堆栈信息贴给 Codex，问它认证流程的逻辑在哪。它能直接跳到正确的文件，让我可以快速定位问题。”

— API 平台，网站可靠性工程师

“我想知道‘某个功能该在哪实现？’，无论是在 Terraform 还是 Python 项目里，问 Codex 总比用 grep 快得多。”

— 基础设施服务，DevOps 工程师

试试用这些示例Prompts，让 Codex 帮你理解代码：

* 这个代码仓库里，认证逻辑是在哪实现的？
* 总结一下，请求在这个服务里从入口到返回的整个流程。
* 哪些模块和 [模块名] 有交互？它们是如何处理失败情况的？

应用场景 2：重构与迁移

当修改涉及多个文件或代码包时，大家很自然会想到用 Codex。比如，在更新一个 API、改变某种实现模式，或者迁移到新的依赖项时，Codex 能确保所有修改都保持一致。

当同一个更新需要应用到几十个文件，或者更新时必须考虑复杂的代码结构和依赖关系（这是正则表达式或简单的查找替换搞不定的），Codex 就特别有用。

团队还用它来清理代码，比如拆分臃肿的模块、用新模式替换旧模式，或者为提高代码的可测试性做准备。

来自我们团队的声音

“Codex 把所有旧的 getUserById() 都换成了我们新的服务模式，还自动开了 PR。这事儿要是人来干，得花好几个小时，它几分钟就搞定了。”

— ChatGPT 网页端，后端工程师

“为了扫清发布障碍，我让 Codex 扫描所有旧模式的实例，用 Markdown 格式总结出影响，然后直接开 PR 提了修复。”

— ChatGPT 企业版，产品工程师

试试用这些示例Prompts，让 Codex 帮你重构和迁移：

* 把这个文件按功能拆分成独立的模块，并为每个模块生成测试。
* 把所有基于回调的数据库访问方式，都改成 async/await。

应用场景 3：性能优化

Codex 也被用来发现和解决性能瓶颈。

在做性能调优或提升可靠性时，工程师会让 Codex 分析那些运行缓慢或消耗大量内存的代码，比如低效的循环、冗余的操作或开销大的查询，并建议优化方案。这常常能显著提升效率和可靠性。

Codex 还被用来维护代码的健康度，比如找出仍在使用的、有风险或已废弃的模式。团队借助它来减少长期的技术债，主动预防代码质量退化。

来自我们团队的声音

“我用 Codex 扫描重复的、开销大的数据库调用。它很擅长标记出热点路径，还能草拟出批量查询的方案，方便我后续调优。”

— API 可靠性，基础设施工程师

“Codex 找性能问题特别快——我花 5 分钟写个Prompts，能省下 30 分钟的工作量。”

— 模型服务，平台工程师

试试用这些示例Prompts，让 Codex 帮你优化性能：

* 优化这个循环，提升内存效率，并解释为什么你的版本更快。
* 找出这个请求处理器中重复的高开销操作，并建议可以引入缓存的地方。
* 在这个函数里，建议一种更快的方式来批量处理数据库查询。

应用场景 4：提升测试覆盖率

Codex 能帮助工程师更快地编写测试——尤其是在那些测试覆盖率很低甚至完全没有测试的地方。

在修复 bug 或重构时，工程师常让 Codex 建议一些能覆盖边界情况或潜在失败路径的测试。对于新代码，它可以根据函数签名和周边逻辑生成单元测试或集成测试。

Codex 特别擅长发现边界条件，比如空输入、最大长度，或者那些不常见但有效的状态。这些情况在最初写测试时常常被忽略。

来自我们 team 的声音

“晚上我会让 Codex 去处理那些测试覆盖率低的模块，第二天早上醒来，就能看到它提交的可运行的单元测试 PR 了。”

— ChatGPT 桌面端，前端工程师

“在我们的 mono-repo 里切换分支很痛苦。所以我会让 Codex 帮我写测试、跑 CI，这样我就可以留在自己的分支上继续干活了。”

— 支付与账单，后端工程师

试试用这些示例Prompts，让 Codex 帮你提升测试覆盖率：

* 为这个函数编写单元测试，要包含边界情况和失败路径。
* 为这个排序工具生成一个基于属性的测试。
* 扩展这个测试文件，覆盖空输入和无效状态等缺失的场景。

应用场景 5：加快开发速度

Codex 能加速开发周期的开始和收尾，帮助团队更快前进。

开始一个新功能时，工程师用它生成样板代码——比如创建文件夹、模块和 API 框架，这样不用手动搭建每一部分，就能快速得到可运行的代码。

当项目临近发布、时间紧迫时，Codex 能处理一些琐碎但必要的任务，比如初步筛选 bug、填补最后阶段的实现缺口、生成部署脚本、遥测钩子或配置文件。

它还能把产品反馈直接转化成初始代码。工程师常常会把用户请求或产品规格文档粘贴进去，让 Codex 生成一个草稿，之后再回来完善。

来自我们团队的声音

“我开了一整天的会，但还是合并了 4 个 PR，因为 Codex 一直在后台帮我干活。”

— ChatGPT 企业版，产品工程师

“Codex 完美地帮我修复了 3-4 个低优先级的 bug，这些问题本来可能就一直躺在待办事项里了。这感觉太棒了。”

— 内部工具，全栈工程师

试试用这些示例Prompts，让 Codex 帮你加快开发速度：

* 为 POST /events 创建一个新的 API 路由框架，带上基本的验证和日志功能。
* 为新的上手流程生成一个遥测钩子，用来追踪成功或失败，参照这个模板 [贴上你的遥测代码示例]。
* 根据这份规格文档，创建一个框架实现：[贴上规格文档或产品反馈]。

应用场景 6：保持心流

当日程被会议和各种干扰切得支离破碎时，Codex 能帮助我们的工程师保持高效。

大家用它来记录未完成的工作，把笔记变成可运行的原型，或者分支出一些探索性的任务留待以后处理。这样，即使中途被打断，比如需要处理线上问题或参加会议，也能轻松地暂停和恢复工作，而不会丢失上下文。

来自我们团队的声音

“如果我看到一个可以顺手修复的问题，我会直接交给 Codex 去办，而不是自己切换分支。等我有空了，再回来审它的 PR 就行。”

— ChatGPT API，后端工程师

“我经常把 Slack 讨论串、Datadog 的追踪日志、issue 等等直接转发给 Codex，这样我就可以专心处理更重要的事。”

— 基础设施可观测性，API 工程师

试试用这些示例Prompts，让 Codex 帮你保持心流：

* 生成一个重构计划，把这个服务拆分成更小的模块。
* 把重试逻辑的框架搭好，加个 TODO 注释——我晚点再来填上具体的退避策略。
* 总结一下这个文件的内容，方便我明天能接着干。

应用场景 7：探索与构思

对于一些开放性的工作，比如寻找不同的解决方案或验证设计决策，Codex 也很有用。你可以让它提出解决问题的不同方法，探索不熟悉的模式，或检验你的设想是否站得住脚。这有助于权衡利弊，扩展设计思路，做出更明智的实现选择。

它还被用来发现相关的 bug。只要给它一个已知的问题或一个已废弃的方法，Codex 就能在代码库里找出其他类似模式的地方，让我们更容易发现潜在的问题或完成清理工作。

来自我们团队的声音

“Codex 帮我解决了‘冷启动’问题——我把一份规格文档和相关资料贴给它，它就能搭好代码框架，或者指出我遗漏了什么。”

— ChatGPT 桌面端，产品工程师

“我修完一个 bug 后，会问 Codex 类似的问题还可能潜藏在哪里，然后根据它的建议创建后续任务。”

— 检索系统，性能工程师

试试用这些示例Prompts，让 Codex 帮你探索和构思：

* 如果把系统从请求/响应模式改成事件驱动模式，这块逻辑会怎么实现？
* 找出所有还在手动拼接 SQL 字符串，而没有使用我们查询构建器的模块。
* 用更函数式的风格重写这段代码，避免数据突变和副作用。

最佳实践

要让 Codex 发挥最大效用，你需要给它清晰的结构、足够的上下文，并允许它迭代。以下是 OpenAI 团队在日常工作中总结出的一些习惯，能让你持续从 Codex 中获益。

从“提问模式”开始 对于较大的改动，先用“提问模式”让 Codex 生成一个实现计划。然后，把这个计划作为后续Prompts，切换到“编码模式”去执行。这个两步流程能让 Codex 的输出更可靠，减少错误。Codex 最擅长处理那些范围明确、大约需要你或同事花一小时完成，或者涉及几百行代码的任务。随着模型的进步，它能处理的任务规模也会越来越大。

迭代优化 Codex 的开发环境 设置好启动脚本、环境变量和网络访问，能显著降低 Codex 的出错率。在执行任务时，留意那些可以通过配置 Codex 环境来解决的构建错误。这可能需要几次迭代，但长期来看，能极大地提升效率。

像写 Github Issue 一样构造Prompts 如果你像在 PR 或 issue 里描述改动那样给 Codex 下Prompts，它的表现会更好。这意味着，在必要时，要包含文件路径、组件名称、代码差异（diff）和文档片段。使用“像 [模块 X] 里那样实现这个功能”这样的模式，也能改善结果。

把 Codex 任务队列当作一个轻量级待办列表 随时把一些旁支的想法、未完成的工作或顺手发现的小问题抛给 Codex。不必追求一次性生成一个完美的 PR。Codex 是一个很好的“暂存区”，等你重新集中精力时，可以随时回来处理。

使用 AGENTS.md 提供持久的上下文 维护一个 AGENTS.md 文件，可以帮助 Codex 在处理不同Prompts时，更有效地理解你的代码仓库。这些文件通常包含命名规范、业务逻辑、已知的“坑”，或者那些单从代码无法推断出的依赖关系。要了解如何组织 AGENTS.md 文件，请参阅文档。

利用“N选一”（Best of N）功能改善输出 “N选一”功能允许你对一个任务同时生成多个版本的解决方案，这样你就可以快速探索不同思路并选择最佳方案。对于更复杂的任务，你可以审阅多个版本，然后组合不同版本的优点，得到一个更强的结果。

展望未来

Codex 目前仍处于研究预览阶段，但它已经实实在在地改变了我们的工作方式，帮助我们更快地行动、写出更好的代码，并有余力去处理那些若非如此便会被无限搁置的工作。

我们对未来的潜力感到兴奋——随着模型越来越强大，Codex 与我们的工作流结合得越来越紧密，我们期待能解锁更多用它来开发软件的强大方式。我们也会继续分享一路走来的心得与体会。

Contents

OpenAI如何使用Codex[译]

目录

引言

应用场景 1：代码理解

应用场景 2：重构与迁移

应用场景 3：性能优化

应用场景 4：提升测试覆盖率

应用场景 5：加快开发速度

应用场景 6：保持心流

应用场景 7：探索与构思

最佳实践

展望未来