2025年9月回顾-2024年一篇LLMs构建产品总结观察AI进化过程
Contents
原文:使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/ 2025年回头看这篇2024年5月发布的文章,原作者 Eugene Yan, Bryan Bischof, Charles Frye, Hamel Husain, Jason Liu and Shreya Shankar,有些内容已经过时,有些仍有实践价值
文章主要架构和主要观点
这篇文章是一份实用手册的第一部分(战术篇),旨在分享基于LLMs构建成功产品的实战经验。其核心架构围绕四个战术层面展开:
1. 提示设计 (Prompt Design)
- 核心观点: 提示工程是起点,效果显著但不应被神话。
- 主要方法:
- 基础技巧: 强调 n-shot 示例、思维链 (Chain-of-Thought) 和提供外部资源 (RAG的前身) 的重要性。
- 结构化: 输入和输出的结构化(如JSON, XML)能提升模型理解和系统集成的可靠性。
- 单一职责: 提倡将复杂的提示分解为多个小而精、专注单一任务的提示,以提高稳定性和可维护性。
- 精简上下文: 强调上下文并非越多越好,应像雕塑一样剔除冗余信息,优化结构。
2. 信息检索/检索增强生成 (RAG)
- 核心观点: RAG是扩展模型知识、减少幻觉的关键技术,其效果优于为获取新知识而进行的微调。
- 主要方法:
- 质量衡量: RAG的质量取决于检索文档的相关性、信息密度和细节程度。
- 混合搜索: 不要迷信向量搜索,关键词搜索(如BM25)在特定场景下依然强大,混合搜索是最佳实践。
- RAG的未来: 长上下文窗口不会完全取代RAG,因为信息选择、推理效率和成本问题依然存在。
3. 调整和优化工作流 (Workflow Optimization)
- 核心观点: 超越单一提示,构建多步骤、结构化的工作流是发挥LLM能力的关键。
- 主要方法:
- 流程化: 将复杂任务分解为多步流程(如AlphaCodium的例子),能显著提升效果。
- 确定性: 优先采用确定性的工作流(如生成固定计划再执行),因为纯动态Agent的可靠性低,难以部署。
- 多样化输出: 除了调整
temperature参数,还可以通过打乱输入顺序、记录历史输出等方式获得更丰富的输出。 - 缓存: 缓存是降低成本、延迟和安全风险的被低估的重要技术。
- 微调时机: 当提示工程达到瓶颈时,才考虑为特定任务(如遵循特殊格式)进行微调。
4. 评估与监控 (Evaluation & Monitoring)
- 核心观点: 严格、多维度的评估是构建可靠LLM应用的基石。
- 主要方法:
- 单元测试: 使用生产环境的真实样本创建基于断言(Assertion)的单元测试。
- LLM-as-Judge: 是一种有效的评估方法,但需注意使用成对比较、控制偏见、允许平局等技巧来提高可靠性。
- “实习生测试”: 一个有效的启发式方法,用于判断任务对LLM的难度是否合理。
- 警惕单一指标: 过分优化单一评估指标(如“大海捞针”)可能会损害模型的综合能力(古德哈特定律)。
- 简化标注: 将标注任务简化为二元判断或成对比较,以减轻认知负担,提高数据质量。
- 评估与防护: 无参考评估和安全护栏可以互换使用,用于过滤低质量或有害的输出。
- 幻觉问题: 承认幻觉问题难以根除,需要结合提示工程(事前)和防护措施(事后)来缓解。
观点评估 (截至2025年9月)
站在2025年9月的视角,我们可以看到AI领域在过去一年多的时间里发生了巨大变化。以下是对文章观点的评估:
仍然具有实践价值的经验(经典永不过时)
- “小而精的提示词” 和 “确定性工作流”: 这个思想源于经典的软件工程原则(单一职责、可预测性),在2025年依然是构建可靠、可维护、可调试的复杂AI系统的黄金法则。动态Agent虽然能力更强,但在企业级应用中,基于有向无环图(DAG)或状态机的确定性流程仍然是保证稳定性的首选。
- 混合搜索(关键词 + 向量): 实践证明,纯向量搜索的“杂乱”问题依然存在。混合搜索结合了关键词的精确匹配能力和向量的语义理解能力,至今仍是构建高质量RAG系统的最佳实践。
- “实习生测试”: 这种评估任务复杂度的思维模型非常出色,它帮助开发者在技术选型和任务分解时保持清醒,这个理念不会过时。
- 简化标注任务(二元/成对比较): 无论是用于RLHF还是模型评估,这都是数据科学的经典方法。它能有效降低成本、提升标注数据质量,在2025年依然是主流做法。
- 警惕单一评估指标(古德哈特定律): 这一点在AI领域愈发重要。随着模型能力越来越强,评估维度也需要更加全面,避免“应试”模型在真实场景中表现不佳。
- RAG优先于微调(用于获取新知识): 这个观点基本正确。RAG在知识更新的成本、速度和可追溯性上优势明显。微调更多地用于教授模型新的技能、风格或格式,而不是注入动态知识。
已经过时或被新的技术和实践替代/否定的观点
- 关于“长上下文不会让RAG过时”的论述略显保守: 文章在2024年5月正确地指出了长上下文的成本和“大海捞针”问题。但到2025年9月,情况已发生巨大变化。
- 技术进步: 顶级模型的上下文窗口(如百万到千万级Token)不仅更大,而且在长序列上的推理能力和召回率也通过架构优化(如Ring Attention)得到了显著提升。
- 成本下降: API的调用成本和计算效率大幅优化,使得在“中等规模”文档集(例如几百页的报告)上直接使用长上下文分析,比搭建复杂的RAG管道更具性价比。
- 新的平衡: RAG并未“死亡”,但其应用场景更加聚焦于超大规模(远超模型上下文限制)和高度动态的知识库。对于有限、静态的文档集,“In-Context Learning”已成为更直接的选择。
- 对Agent的看法过于悲观: 文章强调Agent的不可靠性,推崇确定性计划。虽然这在2024年是普遍共识,但到2025年,Agent技术已取得长足进步。
- 更强的规划与反思能力: 新一代模型具备更强的自主规划、工具使用和自我修正能力,使得Agent在多步复杂任务中的成功率显著提高。
- 多智能体(Multi-Agent)框架的成熟: 通过让多个Agent协作、评审和纠错,系统的鲁棒性大大增强,使得构建更可靠的Agent应用成为可能。确定性工作流依然是基础,但不再是唯一的选择。
- 微调的门槛判断: 文章认为微调成本高昂,应谨慎使用。这一点正在改变。
- 技术的普及: LoRA/QLoRA等高效微调技术更加成熟,自动化微调平台和开源工具的涌现,使得开发者能以更低的成本和技术门槛进行模型微调。
- 应用更广: 微调不再仅仅是“最后的手段”,而已成为提升模型在特定领域语言、风格和任务上表现的常规工具。
- LLM-as-Judge的局限性: 文章提到的方法(成对比较、控制偏见等)已成为标准操作。但现在我们有了更进一步的实践,确定性是商业类LLMs应用的强需求,LLM-as-Judge能有效提升最终输出质量和确定性。
- 专用评估模型: 社区和厂商发布了专门用于评估任务的微调模型,它们在判断一致性、细粒度等方面比通用大模型表现更好、成本更低。LLM-as-Judge正在从“使用通用模型”向“使用专用评估模型”演进。
总结
这篇写于2024年5月的文章,为当时我们团队提供了极为宝贵和扎实的战术指导。其核心的工程思想,如任务分解、结构化、数据质量和多维度评估,至今仍然是构建高质量AI产品的基石。
然而,由于AI技术的飞速发展,文章中基于当时技术水平所做的一些权衡和判断(如对长上下文、Agent可靠性和微调成本的看法)在2025年9月看来则显得有些保守。新技术的发展(更强的长上下文模型、更可靠的Agent框架、更易用的微调技术)为开发者提供了更多的选择,并改变了原有技术栈的平衡点。