继2021年10月发布以来,书生(Intern)历经从单一视觉模型到多模态大模型、通用大模型体系,再到通专融合大模型体系的成长历程。在关键评测指标中,书生·万象的表现不逊于国际顶尖商业闭源模型。
书生·万象模型、代码均已开源,并开放试用。
开源链接:https://github.com/OpenGVLab/InternVL
试用入口:https://internvl.intern-ai.org.cn
| 渐进式训练:低成本,高性能
传统的预训练范式使用大模型+大数据进行“一步到位”的训练,往往消耗大量的算力资源。为了提高训练效率,上海AI实验室研究团队首创了渐进式训练策略:先利用小模型在海量带噪数据上进行高效对比式预训练,随后使用大模型在较少高质量精选数据上进行高效生成式对齐训练。
这一策略不仅实现了模型“从小到大”、数据“从粗到精”的有效优化,而且仅需20%的传统算力资源即可达到同等效果,从而实现成本更低、性能更高。
使用渐进式对齐训练策略,仅需此前20%的算力
与此同时,研究团队构建了当前最大的开源图文交错数据集,包含约160亿图像,3万亿文本词元。相较此前最大的开源图文数据集,图像数量扩大3倍,文本数量扩大10倍,这为书生·万象提供了充足的学习资源和深度理解能力数据基础。
| 向量链接:深度感知真实世界
为了实现丰富的输出格式,书生·万象研究团队首次采用向量链接技术,连接各领域专用解码器,建立起完整的梯度传输链路,支持检测、分割、图像生成、视觉问答等多种任务,能对真实世界进行深度理解,以通用模型属性,承载起专用领域高性能。
如下图所示,在一项视觉问答任务中,向书生·万象输入了一张近期嫦娥六号返回地球的新闻图片,并使其对“返回舱外观”进行分析。书生·万象准确地描述了图中描述的信息,包括现场场景、工作人员数量以及返回舱表面情况,并条理清晰地分析了“返回舱表面凹凸不平”的现象,展示了其强大的图像理解和专业知识储备。
为了进一步验证书生·万象的视觉处理能力,研究人员向其输入了一张拥挤的十字路口图片,并要求检测所有行人位置。书生·万象迅速标注了所有的行人检测框及位置坐标,显示了其出色的视觉处理能力和应用前景。
| 关键性能比肩顶尖商业模型
书生·万象具备优越的多模态数据处理能力,在数学(MathVista)、科学图表(AI2D)、通用图表(ChartQA)、文档( DocVQA)、信息图表(InfographicVQA)和OCR(OCRBench)等任务中表现优异。
关键基准的评测结果显示,书生·万象综合领先于同类开源多模态大模型,其中在文档及通用视觉问答基准测试中,书生·万象表现超越当前最领先的商业闭源模型。
书生·万象在关键评测基准,与主流开源、闭源模型的评测结果对比
| 持续成长,迈向通用人工智能
2021年,上海AI实验室推出国内首个广泛覆盖多种视觉任务的大模型书生1.0(INTERN)。2022年,上海AI实验室发布了更具通用性的大模型书生2.0(InternImage),不但“看图更准”,还学会了“理解视频”和“翻译”,在40余个视觉任务取得了当时世界领先性能。2023年,新一代书生·视觉大模型(InternVL)再次创新了多模态大模型架构,减少了80%的训练成本。面向未来,书生·万象多模态大模型将继续以原创技术突破,迈向全面理解真实世界,实现全模态通用任务的愿景。
历经持续演进,上海AI实验室不断推动模型模态拓展及多样化任务类型,致力于推动AI技术与应用迈向通用人工智能时代,并与产学研各界携手,以高质量开源开放,为人工智能技术发展不断注入创新动力。
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1