ECCV 2024实验室入选成果速览 | 论文导读

来源：上海人工智能实验室｜2024-10-29

2024年欧洲计算机视觉大会（ECCV）于9月29日至10月4日在意大利米兰举行。本届大会上，上海人工智能实验室（上海AI实验室）共计有45篇论文被录用，其中，与香港中文大学、浙江大学联合团队提出的大模型点云数据处理方法相关论文入围“最佳论文候选”（Award Candidate，入选率1.2‰）。

ECCV与CVPR、ICCV并称计算机视觉三大顶会，每两年举行一次。作为世界人工智能领域最具影响力的会议之一，其评选出的论文不仅受到学术界广泛关注，更对未来技术及行业发展产生广泛影响。ECCV 2024官方数据显示，本年度论文投稿量达12600篇，共录用2395篇，录用率仅为18%，录用难度创历史新高。

除“最佳论文候选”外，上海AI实验室共计8篇论文获“Oral”称号，涵盖大语言模型、视觉基础模型、自动驾驶、模型评测、计算病理学、三维生成、图像生成等多领域研究。

在今年早前举行的CVPR 2024上，实验室团队3篇论文获评“Oral”，14篇论文入选入围“Highlight”名单，并主办自动驾驶国际挑战赛、开放世界视觉感知工作坊等国际交流活动。自成立以来，上海AI实验室坚持开展战略性、原创性、前瞻性的科学研究与技术攻关，并以开放的姿态积极参与国际学术交流，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

本期带来ECCV 2024中实验室团队入选“Award Candidate”及“Oral”论文导读。

Award Candidate 、Oral入选论文

《PointLLM：赋能大语言模型理解点云数据》（PointLLM: Empowering Large Language Models to Understand Point Clouds）

论文链接：https://arxiv.org/abs/2308.16911

项目代码：https://github.com/OpenRobotLab/PointLLM

2023年8月，实验室研究团队提出首个点云多模态大模型PointLLM，并被ECCV 2024满分接收。该工作针对3D点云模态构建了用于两阶段对齐微调点云多模态大模型的数据集，首次实现了引入点云模态的多模态大模型，同时指出之前多模态三维点云理解任务评估方法的局限性，构建了新的基准测试方法与评估指标，对多模态大模型进一步扩展到三维世界和空间理解进行了先行探索，为后续工作提供了数据基准基础和重要经验。

点云数据是三维空间中一系列点的集合，通常用于表示物体的几何形状，在计算机图形学、机器人视觉、自动驾驶等领域有广泛的应用。PointLLM通过结合点云编码器和强大的语言模型，有效地融合几何、外观和语言信息。该方法允许模型处理带有颜色信息的物体点云，并生成上下文适当的响应，不仅提高了模型对三维空间数据的理解能力，同时提供了超越传统2D视觉数据的新途径。

为了评估模型的感知能力和泛化能力，研究团队建立了两个基准测试：生成式3D物体分类和3D物体描述。采用包括人类评估、GPT-4/ChatGPT评估和传统指标的多种测试方法，得出PointLLM优于现有2D基线模型的实验结果。值得关注的是，在人类评估的3D物体描述任务中，PointLLM在超过50%的样本中优于人类描述。

Oral入选论文

《DriveLM：基于图像视觉问答的驾驶技术》（DriveLM: Driving with Graph Visual Question Answering）

论文链接：https://arxiv.org/abs/2312.14150

项目代码：https://github.com/OpenDriveLab/DriveLM

为应对 “语言+自动驾驶”研究数据短缺的现状，研究团队构建了“语言+自动驾驶”全栈数据集DriveLM，以覆盖自动驾驶系统中的感知（Perception）、预测（Prediction）和规划（Planning）等模块。通过构建图视觉问答（GVQA）任务，将视觉-语言模型（VLMs）整合到自动驾驶系统中，利用图结构来模拟人类驾驶员在面对复杂交通场景时的决策过程，通过图结构中的节点（问题-答案对）和边（对象间关系）来捕捉场景中的逻辑关系和任务间的依赖性。该方法不仅提高了自动驾驶系统的泛化能力，还增强了其与人类用户的交互性。

《MMBench：基于ChatGPT的全方位多模态能力评测体系》（MMBench: Is Your Multi-modal Model an All-around Player?）

论文链接：https://arxiv.org/abs/2307.06281

项目链接：https://mmbench.opencompass.org.cn

为实现对视觉、语言模型的有效评测，研究团队构建了MMBench视觉语言模型评测数据集，实现了从感知到认知能力逐级细分评估。该评测体系包含从互联网公开信息与权威基准数据集采集的约3000道单项选择题，覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。在具体评测中引入ChatGPT，并提出了CircularEval评测方法，即相同单选问题循环选项提问，模型输出全部指向同一答案时认定为通过，最大程度减少了各种噪声因素对评测结果的影响，保证了结果的准确性及可复现性。
本论文同时获评Paper Digest ECCV最具影响力论文第二名（Most Influential ECCV Papers）。

《基于“距离索引”的视频插帧方法》（Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation）

论文链接：https://arxiv.org/abs/2311.08007

项目链接：https://github.com/zzh-tech/InterpAny-Clearer

现有的视频帧插值（VFI）方法通常盲目预测每个物体在特定时间点𝑡的位置（即“时间索引”），因此难以精确捕捉物体的运动，常导致模糊帧出现。为此，研究团队提出一种全新的“距离索引”插帧方法，不再让网络隐式学习复杂的时间-位置映射，而为网络提供了明确的提示，即物体在起始帧和结束帧之间的移动距离，这种方法为视频模型提供了更清晰的学习目标，减少了与物体速度相关的不确定性。实验表明，使用该方法，在任意时间插值场景下，模型能生成明显更清晰的输出，并且感知质量优于传统方法。同时，距离索引还支持逐像素应用，可用于视频中单个物体的处理，为视频编辑任务提供了一种全新的工具。

《知识增强型视觉-语言预训练在计算病理学中的应用》（Knowledge-enhanced Visual-Language Pretraining for Computational Pathology）

论文链接：https://arxiv.org/abs/2404.09942

研究团队提出了一种基于医学领域知识增强的视觉语言预训练方法，称为Knowledge-enhanced Auto Diagnosis（KAD），该方法利用医学领域的知识图谱来指导视觉-语言预训练，提高多模态大模型在自动诊断胸部X光图像方面的能力。论文在四个外部X光数据集上进行了评估，实验结果表明，KAD的零样本性能不仅与完全监督模型相当，还优于三位专家放射科医师的平均表现，对病理学具有参考意义。此外，当提供少量的样本注释时，KAD的表现优于现有方法，未来有望在不同的临床场景中得到应用。

《LGM：用于高分辨率3D内容创建的大型多视角高斯模型》（LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation）

论文链接：https://arxiv.org/abs/2402.05054

项目代码：https://github.com/3DTopia/LGM

当前，3D内容生成技术在质量和速度方面取得了显著进展，但受限于训练过程中庞大的计算量，生成内容分辨率难以提升。研究团队提出了全新的高斯模型LGM，用于从文本提示或单视角图像生成高分辨率的3D模型。通过3D表征和3D骨干网络创新，实现可微分的渲染及多视角扩散，从而达成高分辨率的“文生三维”“单图生三维”。

《SemGrasp：通过语言对齐的离散化生成语义抓取》（SemGrasp: Semantic Grasp Generation via Language Aligned Discretization）

论文链接：https://arxiv.org/abs/2404.03590

项目链接：https://kailinli.github.io/SemGrasp

生成人体抓取动作是指利用计算机视觉和机器学习技术，生成给定物体的手部抓取或交互动作。这一研究在具身智能、运动分析、VR和AR等领域具有广泛应用前景。此前的工作在该领域更多的关注和依赖物体形状完成抓取动作的生产，忽略了物体和抓取动作的语义信息，会限制其在下游任务中的应用。该论文中提出基于语义的抓取生成方法称为SemGrasp，它通过对齐大语言模型和抓取生成模型，将自然语言的语义信息融入抓取表示中，生成静态的人体抓取姿势。为支持SemGrasp训练，研究团队同时编制了一个大规模的抓取-文本对齐数据集CapGrasp，包含约26万条文本标注和5万种多样化的抓取姿势。

《SPLAM：基于子路径线性近似的扩散模型加速方法》（Accelerating Image Generation with Sub-path Linear Approximation Model）

论文链接：https://arxiv.org/abs/2404.13903

项目链接：https://github.com/MCG-NJU/SPLAM

扩散模型在实际场景中的应用往往受限于推理速度缓慢，借鉴一致性模型中的近似策略，研究团队提出了扩散模型加速方法（SPLAM），在保持高质量图像生成的同时，加速扩散模型推理过程。SPLAM将PF-ODE轨迹视为由采样点分割的PF-ODE子路径序列，并利用子路径线性（SL）ODE对每条子路径进行渐进且连续的误差估计。对这些SL-ODE的优化使SPLAM能够构建具有更小累计近似误差的去噪映射。实验结果表明，SPLAM拥有较高的训练效率，在少步生成任务中优于现有的加速方法。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

ECCV 2024实验室入选成果速览 | 论文导读

来源：上海人工智能实验室｜2024-10-29

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

ECCV 2024实验室入选成果速览 | 论文导读

来源： 上海人工智能实验室｜2024-10-29

来源：上海人工智能实验室｜2024-10-29