英属哥伦比亚大学发布首个全面"意图理解"测评基准

这项由加拿大英属哥伦比亚大学计算机科学系主导的研究，以预印本形式于2026年5月发布在arXiv平台，编号为arXiv:2605.06832。感兴趣的读者可以通过该编号检索完整论文。

当你对手机语音助手说"帮我订一张去北京的票"，你期待的当然是它能理解你真正想要什么，而不是反问你"订的是什么票"或者给你发来一堆关于北京的新闻。这个在人类之间几乎天然发生的事情——理解对方说这句话背后的意图——对于如今最先进的人工智能来说，却依然是一道难以逾越的坎。

研究团队从这个现实问题出发，着手构建一个系统性的测评工具，目的是搞清楚当下最强大的大型语言模型（也就是驱动ChatGPT、Gemini、Claude等产品背后的技术核心）到底在多大程度上能够真正读懂人类的意图。他们将这套工具命名为IntentGrasp，并围绕它展开了一系列覆盖20个顶级模型的大规模测试。

结果令人颇为意外：即便是GPT-5.4、Gemini-3.1-Pro这类当前最顶尖的商业模型，在面对精心设计的意图理解题目时，得分也普遍低得出奇——在最具挑战性的测试集上，竟有17个模型的表现还不如随机乱猜。而这个差距与人类水平相比，更是天壤之别。

这意味着什么？当我们越来越依赖AI助手来处理医疗咨询、法律文件、财务建议这类高度敏感的任务时，如果AI根本没有真正读懂你的意图，后果可能相当严重。这项研究的价值，正是在于为行业提供了一面清晰的镜子——同时也提供了改进的方向。

一、什么叫"意图"，为什么这件事比看起来难得多

要理解为什么意图识别如此困难，先来看一个日常场景。假设一个病人走进诊室对医生说："我最近总是睡不着。"这句话背后可能有很多种意图：他可能是在陈述症状，寻求诊断；可能是在侧面请求开某种特定的药；也可能只是在闲聊，发泄情绪。一个好的医生会综合语境、语气、上下文来判断病人的真实意图。

现在把这个场景换成AI助手，问题就来了。过去几十年里，学术界已经积累了大量用于"意图分类"研究的数据集——也就是教机器把人类的问题或语句归入预设的意图类别。比如"帮我查一下天气"对应"查询天气"这个意图类别，"给我唱首歌"对应"播放音乐"这个意图类别。

但研究团队发现，这些数据集存在两个根本性的问题。第一个问题是碎片化：每个数据集只覆盖特定的领域，大多数集中在日常生活场景，比如订机票、银行查询等，并且格式各不相同，彼此之间无法兼容比较。第二个问题则更为隐蔽——意图标签本身往往语焉不详。

举个具体的例子：在一个专门研究学术论文引用意图的数据集中，有一个意图标签叫做"uses"。单独看到这个词，你很难知道它的意思。实际上，它代表的是"使用了被引论文中的数据、方法等"。这种只有三五个字、没有任何解释的标签，放在专业领域外根本无从理解，更无从评估AI是否真的理解了。

面对这两个痼疾，研究团队决定从头做起，打造一个真正意义上统一的、面向大型语言模型的意图理解基准测试。

二、IntentGrasp是怎么炼成的

构建这个基准测试共经历三个阶段，每一步都有其不可或缺的价值。

第一阶段是原料收集。研究团队系统性地梳理了过去十余年来发表的意图相关研究，最终筛选出49个高质量、有开放许可证的数据集，横跨12个截然不同的领域。这12个领域涵盖了日常生活、智能助手、有毒言论、学术写作、通用问答、电商购物、数学教学、情感回应、新闻传播、客户服务、疫情防控以及政策制定。文本形式上也不拘一格：有单句的用户查询，有多轮来回的对话，还有整段的文章或文件。每条数据都标注了它是否由AI合成生成、是否含有敏感内容。

第二阶段是"翻译"工作。研究团队把所有数据集中那些简短、模糊的意图标签，逐一转化为完整、清晰的意图描述语句。这项工作量颇为浩大——涉及约2000个意图标签，每个都需要研究人员回到原始数据集的标注指南中，理解其真实含义，再改写成普通人也能一目了然的描述。比如前面提到的"uses"，就被改写为"使用被引论文中的数据、方法等"。

第三阶段是格式统一。研究团队把所有实例都转换成了同一种形式——多选题问答。每道题包含一段背景文本，一个询问意图的问题，以及若干选项（最多10个），其中有一个或多个正确答案。为了防止AI靠选项位置规律作弊，测试过程中还会对选项顺序进行随机打乱。

经过这三个阶段，IntentGrasp包含了两个评测集和一个训练集。大规模评测集（All Set）共有12909道题；精选挑战集（Gem Set）共470道题，这470道题是从All Set中挑选出来的——专门选那些在预评测中所有开源模型都答错的题目，再进行跨领域平衡采样，可以说是最能区分模型真实意图理解能力的"硬骨头"；训练集则多达262759个实例，供研究者用来提升模型能力。

三、20个顶级模型悉数登场，成绩却让人大跌眼镜

为了测试，研究团队调用了7大模型家族共20个主流模型，既包括Meta的Llama3、阿里的Qwen3、Allen AI的Olmo3、谷歌的Gemma4这类开源模型，也包括OpenAI的GPT-5、谷歌的Gemini-3、Anthropic的Claude-4这类顶级商业模型，覆盖了当前几乎所有主流的大型语言模型阵营。

评分标准采用F1分数，这是一种综合考量"答对了多少正确答案"和"避免了多少错误答案"的指标，满分100分。研究团队还估算了两个参照值：人类在这套题上的平均水平约为81.1分，而完全随机乱猜的得分约为15.2分。

在All Set上，所有模型的得分都低于60分，表现最好的是Gemini-3.1-Pro，得分约59.7分，而多数模型集中在40至55分之间。这已经相当不理想了——距离人类水平足足差了20分以上。

但真正令人震惊的是Gem Set上的成绩。在这个专门挑选了"硬题"的测试集上，20个模型中有17个的得分低于随机乱猜的15.2分。换句话说，对于这批难题，有些模型的表现还不如闭着眼睛随便选一个选项。Gemini-3-Flash在Gem Set上表现相对最好，得了24.7分，而GPT-5.4只有11.7分，Claude-Opus-4.7是16.6分。这些数字与人类81.1分的水平放在一起，显得格外刺眼。

值得注意的是，四个开源模型家族中，Gemma4-31B在All Set上表现最出色，得分约49.4分；而在Gem Set上，Gemini家族整体领先于Claude和GPT。规模较小的模型普遍更吃力，但即便是最大规模的模型，也难逃整体偏低的命运。

四、哪些题目最难，哪些领域最棘手

当研究团队把成绩按领域细分来看，一些有趣的规律浮现出来。对于所有开源模型而言，日常生活和通用问答这两个领域相对容易，得分较高；而写作意图、电商意图、数学教学对话和情感回应这些领域则明显更难，得分显著偏低。Olmo3家族还出现了一个特殊现象，在新闻领域上成绩急剧下滑，这可能是因为新闻意图题往往需要判断一篇长文章的整体叙述立场或其中虚假信息的意图，难度颇高。

对于三个顶级商业模型的Gem Set表现来看，Gemini在12个领域中的7个领域排名第一，Claude在新闻、情感回应和政策制定三个领域表现最强，而GPT只在智能助手领域领先于其他两者。三者共同的软肋是有毒言论、学术写作、情感回应和客户服务领域，得分都很低。研究团队认为，这种差异可能与不同公司在模型后期训练中侧重的领域有关。

如果从题目类型来看，还有几条普遍规律值得关注。在文本形式上，几乎所有模型对单句查询的理解都优于对整段文章的理解；当一道题只有一个正确答案时，模型反而比有多个正确答案时表现更差，因为这要求模型更精准地锁定唯一正确选项；在标注来源上，开源模型在人工标注的数据上表现更好，而Gemini家族和部分Claude模型则对AI合成数据更得心应手——尽管那些用GPT生成的合成数据经过IntentGrasp的重新处理后，GPT自己在这些题上并没有占到什么便宜，说明测试构建过程确实有效地避免了"出题方与答题方重叠"的漏洞。在涉及敏感内容方面，Claude-Opus-4.7、Claude-Sonnet-3.6和Gemini-3.1-Pro在含有冒犯性或有害内容的题目上表现明显优于其他模型，体现出相对更强的安全对齐能力。

五、数据污染了吗？研究团队是怎么排查的

每当一个评测基准发布，业界都会担心一个问题：模型会不会只是"背答案"？也就是说，这些题目的来源数据是否已经出现在了模型的训练数据里，模型只是凭记忆作答，而非真正理解。

研究团队为此设计了一个时间维度的检验方案。他们把每个来源数据集按照发布年份排列，然后观察模型在不同年份数据上的表现是否存在规律。如果一个模型大量记住了某年之前的训练数据，那它在那个年份之前的题目上应该得分异常地高，接近满分。

然而，实际结果并没有出现这种模式。开源模型的成绩随时间轻微下降，但整体始终在60分以下，远未达到"靠记忆"所能达到的高分水平。商业模型的成绩也没有随时间呈现明显的规律性，始终在40分以下。研究团队由此认为，IntentGrasp的重新构建过程——通过改写意图标签、统一格式——已经充分"脱敏"了原始数据，使得即便模型曾经见过原始数据，也无法简单地将其转化为对IntentGrasp题目的高分。

六、有没有办法让模型变得更好？"意图微调"登场

既然发现了这么大的提升空间，研究团队自然要试着提出解决方案。他们提出了一种叫做"意图微调"（Intentional Fine-Tuning，简称IFT）的训练方法。

这个方法的核心思路其实相当直接：用IntentGrasp提供的26万余条训练数据，对模型进行专项训练。就好比一个学生要参加一门专项考试，与其只靠平时的广泛阅读，不如专门刷一遍和考试类型相符的练习题，理解解题思路。

研究团队选取了Qwen3-4B和Qwen3-8B两款规模适中、训练效率较高的开源模型作为测试对象，分别在不同比例的训练数据（10%、20%、30%、40%、50%、100%）下进行微调，并将结果与三种基准方法进行比较。第一种基准是最简单的直接回答；第二种是加入"让我们一步一步思考"这类提示词，鼓励模型逐步推理，这在学术界被称为思维链提示；第三种则是加入"分析一下问题中的意图再作答"的提示词，专门触发意图分析，这是同一研究团队在另一篇论文中提出的方法。

实验结果显示，意图微调的效果相当显著。即便只用10%的训练数据，两个模型在All Set上的得分就从38分左右跳升到了约49分；使用全量训练数据后，Qwen3-4B在All Set上达到70.5分，Qwen3-8B达到69.7分，均超过了最好的商业模型在All Set上约60分的水平。在难度更大的Gem Set上，Qwen3-4B从原来的3.6分提升到了32.5分，Qwen3-8B从5.3分提升到了30分，提升幅度超过20分，同样超越了全部商业模型的Gem Set得分。

三种基准方法的比较也颇具启发性：思维链提示比直接回答稍强，意图分析提示又进一步胜过思维链，这说明在推理过程中明确引导模型关注"意图"本身，确实有帮助，但这种帮助远不如直接用意图数据进行训练来得彻底。

七、换一个从没见过的领域，还管用吗？

研究团队还做了一个更严苛的测试，叫做"留一域"实验（Leave-One-Domain-Out，简称Lodo）。顾名思义，就是在训练时把某个特定领域的数据完全拿走，只用剩下11个领域的数据进行微调，然后在被拿走的那个领域上测试效果。

这个实验的意义在于检验一个根本问题：意图微调学到的，究竟是死记硬背特定领域的答案，还是某种更本质的、跨领域通用的意图理解能力？

结果表明，即便目标领域在训练时完全未见过，意图微调依然能带来稳定的提升。对于Qwen3-4B，在通用问答、数学教学、疫情防控等领域的提升尤为突出；对于Qwen3-8B，在电商、疫情防控、政策制定领域的跨域泛化效果最为显著。这说明意图微调训练的确是在培养一种更底层的意图理解能力，而不只是针对特定领域的表面记忆。

当然，即便经过意图微调，在新闻和政策制定这两个领域上，模型在Gem Set上的得分依然在15分以下，说明这两个领域的意图理解仍然是一个特别难啃的硬骨头，未来还有很大的探索空间。

说到底，这项研究做的事情可以用一句话概括：它照出了当今最聪明的AI系统在"真正读懂你"这件事上的真实面貌，而那个面貌远比我们以为的要粗糙得多。

你可能会觉得，AI已经能写诗、能编程、能分析财报了，理解一句话背后的意图不是更简单的事吗？但恰恰相反。意图往往是藏在语言表面之下的，需要结合上下文、文化背景、说话者身份、对话场景来综合判断，这对于在模式匹配和概率预测上无比强大的语言模型来说，反而是一个系统性的弱点。

IntentGrasp的出现，为研究社区提供了一把统一的尺子，让不同模型、不同时期的进展能够有据可查地比较。而意图微调的有效性，则说明这个问题并非无解——只是需要用对方法和资源。

对于普通用户而言，这项研究的现实意义在于：当你依赖AI助手做出关于健康、法律或金钱的决策时，多一份审慎是有道理的。AI理解的，未必就是你真正想表达的。而当研究者们在意图理解这个方向上不断深耕，未来的AI助手或许才能真正从"听话的工具"升级为"读懂你的伙伴"。有兴趣深入了解的读者，可以通过arXiv编号2605.06832查阅完整论文，数据集和代码也已在Hugging Face和GitHub上公开，供学术社区使用和改进。

Q&A

Q1：IntentGrasp基准测试和普通的意图分类数据集有什么区别？

A：普通的意图分类数据集通常只覆盖特定领域，意图标签也往往是几个字的简短词汇，脱离语境就难以理解。IntentGrasp则整合了49个来自12个不同领域的数据集，并将所有模糊的意图标签改写成完整清晰的描述语句，同时统一转换为多选题格式，更适合直接评测大型语言模型的真实理解能力。

Q2：意图微调之后的模型表现为什么能超过GPT-5.4这类顶级商业模型？

A：意图微调（IFT）直接用IntentGrasp提供的26万余条意图理解训练数据对模型进行专项训练，让模型系统学习各类意图的识别方式。而GPT-5.4等商业模型虽然规模更大、能力更全面，但在意图理解这个细分方向上并未经过专项训练，因此在这个特定任务上反而不如经过针对性微调的小模型表现出色。

Q3：大型语言模型在哪些领域的意图理解最差？

A：根据IntentGrasp的测试结果，有毒言论、学术写作、情感回应和客户服务这四个领域是所有测试模型共同的薄弱点，三大顶级商业模型在这些领域的得分都相当低。新闻领域和政策制定领域同样困难，即便经过意图微调，模型在这两个领域的挑战性题目上仍然难以取得较高分数。