LLM as A Judge[译]

刘洋 published on 2025-09-23

目前，大语言模型（LLM）的大规模质量评估方式其实存在根本问题。传统的评估方法，比如 BLEU 和 ROUGE 指标，原本是为了翻译任务设计的，根本不适合处理自由开放、无明确标准答案的生成任务。

Prompt工程即需求工程[译]

刘洋 published on 2025-09-22

人们争相从 AI 工具中榨取最大价值，提示词工程（Prompt Engineering）——也就是编写清晰、结构化的输入来引导 AI 输出的实践——随之站上了舞台中央。但对软件工程师来说，这门手艺不算新。几十年来，我们一直在做类似的事，只是叫法不同罢了。我们今天编写 AI 提示词所面临的挑战，和软件团队几代人以来一直在努力解决的难题，并无二致。今天我们谈论提示词工程，其实只是在延续一个更古老的话题：开发者如何清晰地说明他们需要构建什么、在什么条件下构建、基于什么假设，以及如何将这些信息传达给整个团队。

在大模型推理中击败不确定性[译]

刘洋 published on 2025-09-18

前OpenAI核心人物解释LLMs不确定性来源可复现性，是科学进步的基石。然而，想让大语言模型（LLM）给出可复现的结果，却出奇地难。

举个例子，你可能会发现，多次向 ChatGPT 问同一个问题，会得到不同的答案。这本身不奇怪，因为从语言模型获得结果涉及一个“采样”过程，也就是将模型的输出转换成一个概率分布，然后依概率选择一个词元（token）。

2025年9月回顾-2024年一篇LLMs构建产品总结观察AI进化过程

刘洋 published on 2025-09-17

原文：使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/ 2025年回头看这篇2024年5月发布的文章，原作者 Eugene Yan, Bryan Bischof, Charles Frye, Hamel Husain, Jason Liu and Shreya Shankar，有些内容已经过时，有些仍有实践价值