Oral入选论文
《DriveLM:基于图像视觉问答的驾驶技术》(DriveLM: Driving with Graph Visual Question Answering)
论文链接:https://arxiv.org/abs/2312.14150
项目代码:https://github.com/OpenDriveLab/DriveLM
为应对 “语言+自动驾驶”研究数据短缺的现状,研究团队构建了“语言+自动驾驶”全栈数据集DriveLM,以覆盖自动驾驶系统中的感知(Perception)、预测(Prediction)和规划(Planning)等模块。通过构建图视觉问答(GVQA)任务,将视觉-语言模型(VLMs)整合到自动驾驶系统中,利用图结构来模拟人类驾驶员在面对复杂交通场景时的决策过程,通过图结构中的节点(问题-答案对)和边(对象间关系)来捕捉场景中的逻辑关系和任务间的依赖性。该方法不仅提高了自动驾驶系统的泛化能力,还增强了其与人类用户的交互性。
《MMBench:基于ChatGPT的全方位多模态能力评测体系》(MMBench: Is Your Multi-modal Model an All-around Player?)
论文链接:https://arxiv.org/abs/2307.06281
项目链接:https://mmbench.opencompass.org.cn
为实现对视觉、语言模型的有效评测,研究团队构建了MMBench视觉语言模型评测数据集,实现了从感知到认知能力逐级细分评估。该评测体系包含从互联网公开信息与权威基准数据集采集的约3000道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。在具体评测中引入ChatGPT,并提出了CircularEval评测方法,即相同单选问题循环选项提问,模型输出全部指向同一答案时认定为通过,最大程度减少了各种噪声因素对评测结果的影响,保证了结果的准确性及可复现性。
本论文同时获评Paper Digest ECCV最具影响力论文第二名(Most Influential ECCV Papers)。
《基于“距离索引”的视频插帧方法》(Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation)
论文链接:https://arxiv.org/abs/2311.08007
项目链接:https://github.com/zzh-tech/InterpAny-Clearer
现有的视频帧插值(VFI)方法通常盲目预测每个物体在特定时间点𝑡的位置(即“时间索引”),因此难以精确捕捉物体的运动,常导致模糊帧出现。为此,研究团队提出一种全新的“距离索引”插帧方法,不再让网络隐式学习复杂的时间-位置映射,而为网络提供了明确的提示,即物体在起始帧和结束帧之间的移动距离,这种方法为视频模型提供了更清晰的学习目标,减少了与物体速度相关的不确定性。实验表明,使用该方法,在任意时间插值场景下,模型能生成明显更清晰的输出,并且感知质量优于传统方法。同时,距离索引还支持逐像素应用,可用于视频中单个物体的处理,为视频编辑任务提供了一种全新的工具。
《知识增强型视觉-语言预训练在计算病理学中的应用》(Knowledge-enhanced Visual-Language Pretraining for Computational Pathology)
论文链接:https://arxiv.org/abs/2404.09942
研究团队提出了一种基于医学领域知识增强的视觉语言预训练方法,称为Knowledge-enhanced Auto Diagnosis(KAD),该方法利用医学领域的知识图谱来指导视觉-语言预训练,提高多模态大模型在自动诊断胸部X光图像方面的能力。论文在四个外部X光数据集上进行了评估,实验结果表明,KAD的零样本性能不仅与完全监督模型相当,还优于三位专家放射科医师的平均表现,对病理学具有参考意义。此外,当提供少量的样本注释时,KAD的表现优于现有方法,未来有望在不同的临床场景中得到应用。
《LGM:用于高分辨率3D内容创建的大型多视角高斯模型》(LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation)
论文链接:https://arxiv.org/abs/2402.05054
项目代码:https://github.com/3DTopia/LGM
当前,3D内容生成技术在质量和速度方面取得了显著进展,但受限于训练过程中庞大的计算量,生成内容分辨率难以提升。研究团队提出了全新的高斯模型LGM,用于从文本提示或单视角图像生成高分辨率的3D模型。通过3D表征和3D骨干网络创新,实现可微分的渲染及多视角扩散,从而达成高分辨率的“文生三维”“单图生三维”。
《SemGrasp:通过语言对齐的离散化生成语义抓取》(SemGrasp: Semantic Grasp Generation via Language Aligned Discretization)
论文链接:https://arxiv.org/abs/2404.03590
项目链接:https://kailinli.github.io/SemGrasp
生成人体抓取动作是指利用计算机视觉和机器学习技术,生成给定物体的手部抓取或交互动作。这一研究在具身智能、运动分析、VR和AR等领域具有广泛应用前景。此前的工作在该领域更多的关注和依赖物体形状完成抓取动作的生产,忽略了物体和抓取动作的语义信息,会限制其在下游任务中的应用。该论文中提出基于语义的抓取生成方法称为SemGrasp,它通过对齐大语言模型和抓取生成模型,将自然语言的语义信息融入抓取表示中,生成静态的人体抓取姿势。为支持SemGrasp训练,研究团队同时编制了一个大规模的抓取-文本对齐数据集CapGrasp,包含约26万条文本标注和5万种多样化的抓取姿势。
《SPLAM:基于子路径线性近似的扩散模型加速方法》(Accelerating Image Generation with Sub-path Linear Approximation Model)
论文链接:https://arxiv.org/abs/2404.13903
项目链接:https://github.com/MCG-NJU/SPLAM
扩散模型在实际场景中的应用往往受限于推理速度缓慢,借鉴一致性模型中的近似策略,研究团队提出了扩散模型加速方法(SPLAM),在保持高质量图像生成的同时,加速扩散模型推理过程。SPLAM将PF-ODE轨迹视为由采样点分割的PF-ODE子路径序列,并利用子路径线性(SL)ODE对每条子路径进行渐进且连续的误差估计。对这些SL-ODE的优化使SPLAM能够构建具有更小累计近似误差的去噪映射。实验结果表明,SPLAM拥有较高的训练效率,在少步生成任务中优于现有的加速方法。
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1