视觉基础模型从判别式预训练发展至今,InternVL引领了大模型时代基础视觉模型技术进展
| 视觉任务性能开源领先
InternVL-6B具备纯视觉感知、图文检索、图文生成、图文多模态生成和对话等关键能力。谷歌ViT-22B是目前被公认为最强大的专注视觉的基础模型(非开源)。InternVL开源模型以不到1/3的参数量,在纯视觉任务(如ImageNet、ADE20K等)和图生文任务(如NoCaps、MS COCO等)上逼近或超过谷歌ViT-22B。
InternVL-6B(开源)对比 ViT-22B(闭源)
在视觉感知、图文检索、图文多模态生成和对话等30余个视觉基准测试上,InternVL-6B取得了开源社区的最优性能,超过了Meta、谷歌、微软、LAION等机构的同类开源模型。
在TinyLVLM 、MMBench等多模态大模型评测上,InternVL-6B取得了优秀的性能。其中,在MMBench-dev上,InternVL-6B达到76.6,虽然综合能力仍有待提高,但个别性能超越了GPT-4V(75.1)和Gemini(75.2)。
InternVL-6B具备强大的视觉表征和理解能力,尤其表现在面对信息复杂的图片时,模型仍可对细节进行精准捕捉,不仅可在图片或实际场景的复杂画面中捕捉细微的视觉信息,还可从复杂排版的图文页面中整合、解读信息,或辨别伪装外观的物体。
| 准确解读困难样本
日前,著名计算机科学家杨立昆(Yann LeCun)和谢赛宁(Saining Xie)等人在其最新论文《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs》相关数据集中提出了若干困难样本,例如,图中货车外观凌乱,难以辨认车门。对此,InternVL作出了准确回答,GPT-4V误判为车门关闭。
针对困难样本进行问答
| 理解自动驾驶场景复杂样本
例如下图,前车的反光材质造成了感知干扰,让模型难以辨别前方的车辆数目。这对于以往的自动驾驶感知技术而言是一个困难样本,而InternVL精准地辨别了前车数量,初步显示出通用泛化性的能力。
自动驾驶场景的实际样本
| 复杂画面计数
下图是电视剧《繁花》的一张剧照,图中光影明暗交错,人物衣着丰富。向InternVL提问有几位男士戴了领带这样的细节,它也可以快速数出是3位。
对《繁花》剧照进行细节问答
| 解决数理问题
对于上图所示的生物学问题,向InternVL提问:如果细胞外的pH值降低,你认为转运到细胞内的氨基酸量会增加还是减少?InternVL回答:如果细胞外的pH值降低,氨基酸就会带更多的负电荷。这会导致它们被细胞膜内部带正电的Na+离子吸引,从而导致转运到细胞中的氨基酸量增加。
在下图中,向InternVL提问:分析两种汽车,哪种更符合空气动力学?InternVL也能够正确回答并给出理由。
| 辨别伪装外观的物体
InternVL对细节的捕捉能力极强,可以准确地找出图像中的“隐藏”信息,让海底动物的伪装也无所遁形。
识别伪装物体
| 解读复杂排版图文信息
针对排版复杂的英文页面,InternVL可快速“看完”所有信息,帮助用户整合处理成中文介绍。
对AAAI官网的信息进行深度解析,识别出了网页里的重要信息
| 原创技术支撑能力提升
InternVL具备的强大能力来自一系列原创技术的支撑,其中首次提出的对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。
InternVL在训练过程中引入全新的渐进式对齐策略,从海量噪声数据上的对比学习,逐渐过渡到高质量数据上的生成式学习,实现了视觉编码器和语言模型的良好对齐,并对数据进行最大化利用,从而使得InternVL具备强大的多模态任务能力。
InternVL概览
通过灵活组合视觉编码器和语言中间件,InternVL可支持各种视觉或视觉-语言任务,如同“瑞士军刀”般集成多样化能力。
针对视觉感知任务,InternVL的视觉编码器InternViT-6B可直接作为骨干网络,作为传统ViT及深度残差网络(ResNet)的有效补充及替代。
在跨模态检索任务中,可通过InternViT-6B的视觉特征或QLLaMA的查询特征实现各类对比检索,并作为CLIP模型的有效补充及替代。得益于参数量的扩大,QLLaMA在应对生成任务中具有更强大的图像字幕能力,可同时对InternViT-6B的视觉表示进行重新组织,实现多模态内容生成。
在多模态对话方面,研究人员定制了书生·视觉的对话版InternVL-Chat,将InternVL作为视觉组件连接到大语言模型,构建出多模态对话模型。
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1