让大模型更贴近人类认知水平，上海AI实验室发布首个因果推理评测体系CaLM

来源：上海人工智能实验室｜2024-05-14

近日，上海人工智能实验室（上海AI实验室）联合同济大学、上海交通大学、北京大学及商汤科技发布首个大模型因果推理开放评测体系及开放平台CaLM（Causal Evaluation of Language Models，以下简称“CaLM”）。首次从因果推理角度提出评估框架，为AI研究者打造可靠评测工具，从而为推进大模型认知能力向人类水平看齐提供指标参考。

因果推理是人类认知能力最重要的特征之一，提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估，上海AI实验室联合团队在CaLM中提出包含因果评估目标（Causal Target）、评估方式（Adaptation）、评估标准（Metric）及错误分析（Error）的评估框架，同时构建了超过12万道题目的中英文数据集。

基于CaLM，联合团队首次对28个当前主流大模型进行了因果推理能力评测，共产生了50项实证性发现，本文摘录其中6个结论。相关论文共315页，可点击下方链接，或登录本网站首页查阅下载。

论文链接：https://arxiv.org/pdf/2405.00622

项目主页：https://opencausalab.github.io/CaLM

开源数据集及工具包：https://github.com/OpenCausaLab/CaLM

| 灵活、易扩展的评估框架

CaLM评估框架

CaLM采用了一套灵活、易扩展的评估框架，并按照预设实施顺序进行评测：因果评估目标（Causal Target）→评估方式（Adaptation）→评估标准（Metric）→错误分析（Error）。CaLM的评估框架设计与实施流程，还可应用于数学推理、专业知识及长文本处理等模型能力评估体系构建。

自下而上的因果评估目标

在当前普遍采用的Judea Pearl提出的因果阶梯理论基础上，CaLM进一步发展并明确了四个层次的因果任务：因果发现（Causal Discovery）、关联（Association）、干预（Intervention）及反事实（Counterfactuals）。每层次任务按复杂程度进行基础到高级的顺序排列，构成了自下而上的框架。

因果发现旨在从数据或语义中推测出潜在的因果结构，关联探索数据间的统计依赖关系，干预预测有意改变环境中的变量所带来的影响，以及反事实则对假设的替代场景进行推理。针对四个任务层次，CaLM设计了因果归因、解释移除效应、对撞偏差和反事实推理等21种因果场景，覆盖COPA、CLADDER及CaLM-IV等多种数据集和问题类型。

CaLM因果评估目标设置

丰富的评估方式

在评估方式的选择上，CaLM采用了基准提示、对抗性提示、思维链及上下文学习等9种评估方式。综合考量了评测实践过程的受众广泛性、用户易用性以及实验控制性。

全面的评估标准

针对模型、提示词以及因果场景，CaLM中分别设置了不同的评估标准，覆盖包括准确率、鲁棒性、理解度等7种，全面反映模型的因果推理能力和鲁棒性、提示词有效性。越复杂的因果场景模型越难解决，从而该场景成熟度越低，因此CaLM同时设置了考察因果场景成熟度的评估标准。

CaLM评估标准

系统的错误结果分析

联合团队认为，大模型评测中产生的错误，是应用于下一阶段研究的宝贵资源。通过发现并定义错误，研究人员能够更清晰地界定模型能力边界，识别模型存在的缺陷，并寻找对应提升路径。

为此，CaLM在评估过程中，将模型产生的错误系统地分为两大类：定量错误（Quantitative）和定性错误（Qualitative）。不仅对每类错误进行明确的定义，还对所有定量错误都进行了统计分析，以量化错误的频率和模式。CaLM也对于所有定性错误进行了深入的案例研究，以理解错误的具体情况和成因。

CaLM错误结果分析框架

| 多样化的因果评测数据集

为了使因果推理能力评估有“考题”可循，联合团队构建了一套全新的评测数据集。基于四个层级的因果任务设置，涵盖了丰富的因果概念，包含超过12万条中英文数据。同时，研究人员还细致地将文本模态划分为日常表达（Natural）、抽象表达（Symbolic）和数学表达（Mathematical）三种子态，以考察模型在不同类型模态下的理解能力。

该数据集约90%的内容为全新构建，10%来自于现有公开数据集，既能与已有公开结果进行对比，反映评估的有效性，又能避免训练集数据污染问题。

CaLM数据集问题类型统计概览

| 公正、公开的评测结果

针对28个当前主流大模型，联合团队使用了 CaLM进行因果推理能力评测，共产生了50项实证性发现。评估数据和可视化结果均已发布至CaLM项目主页（https://opencausalab.github.io/CaLM），同时CaLM数据集、评估流程和错误分析的全流程均已开源（https://github.com/OpenCausaLab/CaLM），便于产学界自主研究使用。

CaLM评估结果

代表性结论速览

1.因果推理能力普遍欠缺。目前，大语言模型很难有效地执行需要复杂因果推理的任务。随着因果推理复杂性的增加，每个大语言模型的准确性均逐渐下降，最终几乎降至零。

2.人类反馈的强化学习（RLHF）存在双面效应。RLHF能够使模型输出与人类推理过程保持更紧密对齐。另一方面，使用RLHF微调的模型也容易受到用户错误指令的影响。

3.OpenAI模型迭代提升显著。随着其每次更新，模型在执行因果推理任务能力方面都表现出实质性改进，其准确性和鲁棒性的平衡也显著提升。

4.模型参数规模对因果推理能力的影响。在因果推理任务中，模型参数规模和准确性之间的关系并没有呈现出直接的单调递增，其他因素（例如训练数据和策略）会显著影响来自不同开发者模型的准确性。但在同一开发者的模型中，模型参数规模是准确性的一致且可靠的预测指标。

5.提示词的改变并不能显著提高模型在复杂因果场景下的性能。由于模型的训练语料库中往往缺乏关于复杂因果推理任务的先验知识，在这种复杂的因果场景中，提示词的改变并不能显著提高模型性能。

6.不同问题中出现相同回答的错误具有普遍性。受测的28个模型中，共计26个显示出对不同问题提供相同答案的倾向，表明它们无法有效地处理因果任务。

上海AI实验室将持续与业界共同推进大模型在因果推理领域的评估工作，实现评测工作标准化、行业化和多元化发展，并推动大模型在更广泛的领域得到应用。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

让大模型更贴近人类认知水平，上海AI实验室发布首个因果推理评测体系CaLM

来源：上海人工智能实验室｜2024-05-14

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

让大模型更贴近人类认知水平，上海AI实验室发布首个因果推理评测体系CaLM

来源： 上海人工智能实验室｜2024-05-14

来源：上海人工智能实验室｜2024-05-14