不同体量大模型意图识别差异验证.122

陆零云 2026-06-05 09:25:34 2

意图识别是自然语言处理里最核心、最落地的任务之一，不管是智能客服、智能助手，还是语音交互、智能设备控制，都离不开它。之前我们已经系统讲过意图识别的评估指标、基本原理和整体评测流程，也用语义向量模型（all-MiniLM-L6-v2）和轻量级大模型Qwen1.5-1.8B-Chat做过一版实测。但在实际跑通代码、对比结果后我们发现：Qwen1.5-1.8B 受限于参数量，在复杂句式、混合意图、模糊表达上的识别能力明显偏弱，稳定性也不够理想。于是我们进一步引入ChatGLM3-6B做联合评测，用更大体量、更强语义理解能力的模型做对照。

还真是个有意思的事情，这一轮完整对比下来，我们能非常直观地看到：模型体量不同，意图识别的效果差异真的非常大。今天我们就基于这三类真实模型，从准确率、召回率、F1 值、响应时间等维度，完整拆解意图识别系统的评测逻辑，做个有趣的实验，同时让大家直观的理解小模型和大模型在实际业务里的差距。