如何构建可落地的 LLM 测试评估体系

陆零云 2026-06-05 09:25:03 80

构建 LLM 评估体系之前，有一个问题必须先回答清楚：你的系统输出，是确定性的还是概率性的？

这不是废话。大多数团队踩坑的根源，就在于把一个概率系统当确定性系统来评估。传统软件测试的核心假设是“相同输入，相同输出”。这个假设在 LLM 上完全不成立。同一条 prompt，温度参数 0.7，跑十次，你会得到十个不同的回答，质量分布可能从 0.6 到 0.95 都有。