2025年9月回顾-2024年一篇LLMs构建产品总结观察AI进化过程

2025-09-17 2890 words 6 minutes

Contents

原文：使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/ 2025年回头看这篇2024年5月发布的文章，原作者 Eugene Yan, Bryan Bischof, Charles Frye, Hamel Husain, Jason Liu and Shreya Shankar，有些内容已经过时，有些仍有实践价值

文章主要架构和主要观点

这篇文章是一份实用手册的第一部分（战术篇），旨在分享基于LLMs构建成功产品的实战经验。其核心架构围绕四个战术层面展开：

1. 提示设计 (Prompt Design)

核心观点: 提示工程是起点，效果显著但不应被神话。
主要方法:
- 基础技巧: 强调 n-shot 示例、思维链 (Chain-of-Thought) 和提供外部资源 (RAG的前身) 的重要性。
- 结构化: 输入和输出的结构化（如JSON, XML）能提升模型理解和系统集成的可靠性。
- 单一职责: 提倡将复杂的提示分解为多个小而精、专注单一任务的提示，以提高稳定性和可维护性。
- 精简上下文: 强调上下文并非越多越好，应像雕塑一样剔除冗余信息，优化结构。

2. 信息检索/检索增强生成 (RAG)

核心观点: RAG是扩展模型知识、减少幻觉的关键技术，其效果优于为获取新知识而进行的微调。
主要方法:
- 质量衡量: RAG的质量取决于检索文档的相关性、信息密度和细节程度。
- 混合搜索: 不要迷信向量搜索，关键词搜索（如BM25）在特定场景下依然强大，混合搜索是最佳实践。
- RAG的未来: 长上下文窗口不会完全取代RAG，因为信息选择、推理效率和成本问题依然存在。

3. 调整和优化工作流 (Workflow Optimization)

核心观点: 超越单一提示，构建多步骤、结构化的工作流是发挥LLM能力的关键。
主要方法:
- 流程化: 将复杂任务分解为多步流程（如AlphaCodium的例子），能显著提升效果。
- 确定性: 优先采用确定性的工作流（如生成固定计划再执行），因为纯动态Agent的可靠性低，难以部署。
- 多样化输出: 除了调整temperature参数，还可以通过打乱输入顺序、记录历史输出等方式获得更丰富的输出。
- 缓存: 缓存是降低成本、延迟和安全风险的被低估的重要技术。
- 微调时机: 当提示工程达到瓶颈时，才考虑为特定任务（如遵循特殊格式）进行微调。

4. 评估与监控 (Evaluation & Monitoring)

核心观点: 严格、多维度的评估是构建可靠LLM应用的基石。
主要方法:
- 单元测试: 使用生产环境的真实样本创建基于断言（Assertion）的单元测试。
- LLM-as-Judge: 是一种有效的评估方法，但需注意使用成对比较、控制偏见、允许平局等技巧来提高可靠性。
- “实习生测试”: 一个有效的启发式方法，用于判断任务对LLM的难度是否合理。
- 警惕单一指标: 过分优化单一评估指标（如“大海捞针”）可能会损害模型的综合能力（古德哈特定律）。
- 简化标注: 将标注任务简化为二元判断或成对比较，以减轻认知负担，提高数据质量。
- 评估与防护: 无参考评估和安全护栏可以互换使用，用于过滤低质量或有害的输出。
- 幻觉问题: 承认幻觉问题难以根除，需要结合提示工程（事前）和防护措施（事后）来缓解。

观点评估 (截至2025年9月)

站在2025年9月的视角，我们可以看到AI领域在过去一年多的时间里发生了巨大变化。以下是对文章观点的评估：

仍然具有实践价值的经验（经典永不过时）

“小而精的提示词” 和 “确定性工作流”: 这个思想源于经典的软件工程原则（单一职责、可预测性），在2025年依然是构建可靠、可维护、可调试的复杂AI系统的黄金法则。动态Agent虽然能力更强，但在企业级应用中，基于有向无环图（DAG）或状态机的确定性流程仍然是保证稳定性的首选。
混合搜索（关键词 + 向量）: 实践证明，纯向量搜索的“杂乱”问题依然存在。混合搜索结合了关键词的精确匹配能力和向量的语义理解能力，至今仍是构建高质量RAG系统的最佳实践。
“实习生测试”: 这种评估任务复杂度的思维模型非常出色，它帮助开发者在技术选型和任务分解时保持清醒，这个理念不会过时。
简化标注任务（二元/成对比较）: 无论是用于RLHF还是模型评估，这都是数据科学的经典方法。它能有效降低成本、提升标注数据质量，在2025年依然是主流做法。
警惕单一评估指标（古德哈特定律）: 这一点在AI领域愈发重要。随着模型能力越来越强，评估维度也需要更加全面，避免“应试”模型在真实场景中表现不佳。
RAG优先于微调（用于获取新知识）: 这个观点基本正确。RAG在知识更新的成本、速度和可追溯性上优势明显。微调更多地用于教授模型新的技能、风格或格式，而不是注入动态知识。

已经过时或被新的技术和实践替代/否定的观点

关于“长上下文不会让RAG过时”的论述略显保守: 文章在2024年5月正确地指出了长上下文的成本和“大海捞针”问题。但到2025年9月，情况已发生巨大变化。
- 技术进步: 顶级模型的上下文窗口（如百万到千万级Token）不仅更大，而且在长序列上的推理能力和召回率也通过架构优化（如Ring Attention）得到了显著提升。
- 成本下降: API的调用成本和计算效率大幅优化，使得在“中等规模”文档集（例如几百页的报告）上直接使用长上下文分析，比搭建复杂的RAG管道更具性价比。
- 新的平衡: RAG并未“死亡”，但其应用场景更加聚焦于超大规模（远超模型上下文限制）和高度动态的知识库。对于有限、静态的文档集，“In-Context Learning”已成为更直接的选择。
对Agent的看法过于悲观: 文章强调Agent的不可靠性，推崇确定性计划。虽然这在2024年是普遍共识，但到2025年，Agent技术已取得长足进步。
- 更强的规划与反思能力: 新一代模型具备更强的自主规划、工具使用和自我修正能力，使得Agent在多步复杂任务中的成功率显著提高。
- 多智能体（Multi-Agent）框架的成熟: 通过让多个Agent协作、评审和纠错，系统的鲁棒性大大增强，使得构建更可靠的Agent应用成为可能。确定性工作流依然是基础，但不再是唯一的选择。
微调的门槛判断: 文章认为微调成本高昂，应谨慎使用。这一点正在改变。
- 技术的普及: LoRA/QLoRA等高效微调技术更加成熟，自动化微调平台和开源工具的涌现，使得开发者能以更低的成本和技术门槛进行模型微调。
- 应用更广: 微调不再仅仅是“最后的手段”，而已成为提升模型在特定领域语言、风格和任务上表现的常规工具。
LLM-as-Judge的局限性: 文章提到的方法（成对比较、控制偏见等）已成为标准操作。但现在我们有了更进一步的实践,确定性是商业类LLMs应用的强需求，LLM-as-Judge能有效提升最终输出质量和确定性。
- 专用评估模型: 社区和厂商发布了专门用于评估任务的微调模型，它们在判断一致性、细粒度等方面比通用大模型表现更好、成本更低。LLM-as-Judge正在从“使用通用模型”向“使用专用评估模型”演进。

总结

这篇写于2024年5月的文章，为当时我们团队提供了极为宝贵和扎实的战术指导。其核心的工程思想，如任务分解、结构化、数据质量和多维度评估，至今仍然是构建高质量AI产品的基石。

然而，由于AI技术的飞速发展，文章中基于当时技术水平所做的一些权衡和判断（如对长上下文、Agent可靠性和微调成本的看法）在2025年9月看来则显得有些保守。新技术的发展（更强的长上下文模型、更可靠的Agent框架、更易用的微调技术）为开发者提供了更多的选择，并改变了原有技术栈的平衡点。