SFE 系统性评测 MLLM 多学科高阶科学认知能力
首个大模型可信因果推理开放评测体系及开放平台
LLM中文高对抗性测试基准
多模态安全评测 + 纯文本对齐和多模态对齐baseline
感知与导航智能-基于多图的空间智能视觉问答(VQA)基准
首个LLM驱动的具身推理任务合成和评测
MLLM 的多维安全评估套件
An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models
评估多模态大型语言模型针对本科物理问题的推理能力
首个多模态大模型可信因果推理能力评测 benchmark
综合性Computer-Use Agent的安全风险评测基准
从公平、毒性、隐私层面对文生图模型进行安全评测
补充 LLM 在种业领域评测空白
首个从因果角度量化和评估多模态大模型单模态偏见问题的 benchmark
验证伪对齐问题的存在,并提出伪对齐评估 (FINE) 框架
系统地评估大型语言模型作为自主智能体核心的认知能动性
一套pipeline高效解决情感陪伴模型的效果评估问题
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1