如何构建可落地的 LLM 测试评估体系

构建 LLM 评估体系之前,有一个问题必须先回答清楚:你的系统输出,是确定性的还是概率性的?


这不是废话。大多数团队踩坑的根源,就在于把一个概率系统当确定性系统来评估。传统软件测试的核心假设是“相同输入,相同输出”。这个假设在 LLM 上完全不成立。同一条 prompt,温度参数 0.7,跑十次,你会得到十个不同的回答,质量分布可能从 0.6 到 0.95 都有。


所以,你评估的不是“这个输出对不对”,而是“这个系统在什么样的概率分布下工作”。


这个认知是整套体系的地基。没有这个认知,后面的一切都是在沙子上建房子。


您可以还会对下面的文章感兴趣:

暂无相关文章