LLM

LLM as A Judge[译]

目前,大语言模型(LLM)的大规模质量评估方式其实存在根本问题。传统的评估方法,比如 BLEU 和 ROUGE 指标,原本是为了翻译任务设计的,根本不适合处理自由开放、无明确标准答案的生成任务。

Prompt工程即需求工程[译]

人们争相从 AI 工具中榨取最大价值,提示词工程(Prompt Engineering)——也就是编写清晰、结构化的输入来引导 AI 输出的实践——随之站上了舞台中央。但对软件工程师来说,这门手艺不算新。几十年来,我们一直在做类似的事,只是叫法不同罢了。我们今天编写 AI 提示词所面临的挑战,和软件团队几代人以来一直在努力解决的难题,并无二致。今天我们谈论提示词工程,其实只是在延续一个更古老的话题:开发者如何清晰地说明他们需要构建什么、在什么条件下构建、基于什么假设,以及如何将这些信息传达给整个团队。

在大模型推理中击败不确定性[译]

前OpenAI核心人物解释LLMs不确定性来源 可复现性,是科学进步的基石。然而,想让大语言模型(LLM)给出可复现的结果,却出奇地难。

举个例子,你可能会发现,多次向 ChatGPT 问同一个问题,会得到不同的答案。这本身不奇怪,因为从语言模型获得结果涉及一个“采样”过程,也就是将模型的输出转换成一个概率分布,然后依概率选择一个词元(token)。

2025年9月回顾-2024年一篇LLMs构建产品总结观察AI进化过程

原文:使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/ 2025年回头看这篇2024年5月发布的文章,原作者 Eugene Yan, Bryan Bischof, Charles Frye, Hamel Husain, Jason Liu and Shreya Shankar,有些内容已经过时,有些仍有实践价值