InternVideo2.5长时跨度及细粒度视频理解能力,适应多种视频任务
专注精细时空理解,长视频高效感知
上海AI实验室持续布局视频多模态大模型(Video MLLM)技术探索,自2022年起,先后推出并开源通用视频基础模型书生InternVideo、视频理解大模型书生InternVideo2及以对话为中心的视频理解新范式VideoChat。在视频基础视觉表征学习和多模态对话的技术积累上,全新升级InternVideo2.5专注于细微时空理解,将视觉感知和语言理解深度融合,实现了长视频理解能力突破。
InternVideo2.5能力特征:
超长视频处理: 万帧精确定位,视频处理长度较此前版本提升6倍(3000-10000帧)。
细粒度感知: 准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。
多项视觉能力融合: 不仅能进行通用视频问答,还能完成目标跟踪、分割等专业视觉任务。
左图:InternVideo2.5与其它80亿参数开源模型在MVBench和VideoMME上的评测性能对比;右图:InternVideo2.5可准确对视频进行跟踪分析。
LRC结合渐进训练,破解长视频建模技术瓶颈
针对长视频和精细化视觉任务,传统视频多模态大模型面临显著技术瓶颈,难以在超长视频中准确追踪目标物体,或在复杂场景下识别细微的时空关系。以“万帧大海捞针”任务为例,传统方法需耗费大量计算资源,且定位精度不足,导致视频分析效率低下,限制了该类大模型在工业级场景中的应用。
为此,上海AI实验室联合团队基于自研的书生·万象(InternVL2.5)基座模型,提出长时丰富上下文建模(LRC)技术,为破解当前瓶颈提供了解题思路。
长时丰富上下文建模技术 (LRC)两大核心模块:
分层上下文压缩 (HiCo): 巧妙地利用长视频中视觉信息的冗余性,对视频内容进行分层压缩。实验结果显示,在HiCo的作用下,InternVideo2.5可在万帧视频中准确找到目标帧,在开源模型中综合领先。
任务偏好优化 (TPO): TPO通过将来自各种细粒度视觉任务(例如目标跟踪、分割、时间定位等)的标注信息,转化为可微分的任务偏好,指导模型自学习,将InternVideo能力拓展至各类专业视觉任务。
同时,联合团队以超过30万小时的视频语料,使用渐进式多阶段训练方案,对InternVideo2.5进行了预训练,保证其视频能力的获取。其中,训练语料涵盖视觉文本对齐数据、长视频数据和特定任务视觉数据类型,为模型学习提供丰富信息。延续书生·万象采用的渐进式多阶段训练方案,逐步提升模型的细粒度感知和时间理解能力:一阶段进行基础学习,实现任务识别指令调整和视频语言对齐训练;二阶段通过集成和训练特定任务组件以及视觉概念预训练,增强视觉理解能力;三阶段则在混合语料库上进行多任务训练和指令调整,优化所有模型组件。这一方案实现了模型“从小到大”、数据“从粗到精”的有效优化,使成本更低、性能更高。