LLM as A Judge[译] 刘洋 published on 2025-09-23目前,大语言模型(LLM)的大规模质量评估方式其实存在根本问题。传统的评估方法,比如 BLEU 和 ROUGE 指标,原本是为了翻译任务设计的,根本不适合处理自由开放、无明确标准答案的生成任务。