LLM as A Judge[译]

liuyang@qianlima.com (刘洋) — Tue, 23 Sep 2025 07:49:34 +0000

目前，大语言模型（LLM）的大规模质量评估方式其实存在根本问题。传统的评估方法，比如 BLEU 和 ROUGE 指标，原本是为了翻译任务设计的，根本不适合处理自由开放、无明确标准答案的生成任务。

质量评估 on Note100.com