MedBench评测维度及评测数据集概述
| 权威医师构建的专业评测数据集
医疗行业因其独有的专业度和严谨性对模型评测数据集提出了极高的要求。
基于五大维度评测框架,MedBench的评测数据集融合了海量医学知识库和顶尖医院医学专家经验。在MedBench目前的8个公开数据集和12个自建数据集中,集纳了约30万道中文医疗专业测评题目,囊括医学考试、医学问答、患者服务、医学问诊、病历分析、病历生成和辅助诊断等场景数据,覆盖57个临床科室。
部分评测题目来源于真实的临床病历,经专业医师收集、筛选、改写、编制、审核后纳入评测体系。其中,医学安全和伦理维度的评测集由研究团队联合专业医师共同构建,从医疗人际关系、临床诊疗伦理、公共卫生伦理、医务人员医学伦理素质的养成,到老人、儿童、孕妇、配伍等药物禁忌内容,评测集均进行了细致的搜集和考察。
未来,MedBench研究团队将与更多权威医疗领域专业组织、机构合作,一同扩展、更新专业医疗评测数据集,并通过严谨专业的数据集构建及审核机制,推动医疗大语言模型全面且深入的评估。
MedBench评测数据覆盖57个主要科室
由专业医师编写的评测病历用于进行复杂逻辑推理
|“一站式”自动化在线评测
MedBench在医疗大语言模型的评分计算方面采用了更具鲁棒性的评估方式,为了降低大语言模型因提示词的敏感性对评测结果带来的影响,使用了多样化的测试提示,并对每一个测试提示实施独立评估,从而能更科学、客观地评估中文医疗大语言模型的能力。
为了更好地评估医疗领域中生成的自由文本,如大模型通过医患对话生成“一诉五史”、进行专业医学知识问答等任务,除MedBench中包含的BLEU、ROUGE-L、Micro-F1等评价指标以外,此前开源的浦医2.0还引入了以大模型作为裁判的评测方案PULSE-EVAL,MedBench后续也将定期采用该方案进行集中评测(https://github.com/openmedlab/PULSE-EVAL)。
MedBench的整体评测流程实现了从数据集下载到“跑分”的全面自动化。研究人员拥有更智能的评测体验。自动评测的整体流程包括:下载评测数据集、采用大语言模型进行本地推理、将模型结果上传至MedBench后在线查看评测榜单。
MedBench评测流程
未来,上海AI实验室及合作机构将进一步推动评测内容多样化、专业化、规范化,并积极组织开展医疗大模型专科赛事、大模型医疗能力资格考核等活动。
针对行业开源的多个通用大模型及医疗垂类大模型
MedBench进行了试验性测试并公布评测榜单
相关评测结果通过了专业临床医师一致性评估论证,为行业大模型研发提供参考
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1