张宋扬-美国罗切斯特大学计算机科学博士
报告题目:视频辅助的无监督句法分析
报告主要介绍了其在NAACL 2021获得“最佳长论文”的工作成果——视频辅助的无监督句法分析,即在从未标记的文本及其相应的视频中学习句法分析。论文以复合 PCFG 模型(Kim 等人,ACL 2019)为基准,从样本视频中探索了丰富的特征(例如动作、目标、场景、音频、面部、OCR 和语音等),并提出了一个多模态复合 PCFG 模型(MMC-PCFG模型)来有效地聚合来自不同模态的丰富特征。MMC-PCFG模型经过端到端训练,在三个基准(即DiDeMo、YouCook2和MSRVTT)上的表现优于每个单独的模态和此前最先进的系统,证实了利用视频信息进行无监督语法归纳的有效性。
邱剑涛-清华大学电子工程系博士
报告题目:针对基于深度强化学习的多机器人系统关键技术研究
报告主要介绍了其在NAACL 2021获得“最佳长论文”的工作成果——视频辅助的无监督句法分析,即在从未标记的文本及其相应的视频中学习句法分析。论文以复合 PCFG 模型(Kim 等人,ACL 2019)为基准,从样本视频中探索了丰富的特征(例如动作、目标、场景、音频、面部、OCR 和语音等),并提出了一个多模态复合 PCFG 模型(MMC-PCFG模型)来有效地聚合来自不同模态的丰富特征。MMC-PCFG模型经过端到端训练,在三个基准(即DiDeMo、YouCook2和MSRVTT)上的表现优于每个单独的模态和此前最先进的系统,证实了利用视频信息进行无监督语法归纳的有效性。
李祥泰-北京大学计算机科学博士
报告题目:用于分割对齐的特征学习
图像和视频分割是计算机视觉中的基础任务,不仅包括语义分割、实例分割、全景分割,还包括一些应用场景下的分割任务,诸如人遥感图像分割、透明物体分割等。这些任务在自动驾驶、人像分割、机器人导航等很多场景下有着广泛的应用。本次报告以对齐特征学习为主线,从三个不同的方面,系统地回顾了其最近两年在分割领域的探索:
1. 学习对齐的特征金字塔
2. 学习对齐的分割边缘特征
3. 学习对齐的时序特征表达
对齐的特征表达有助于改善最终的分割结果,做到实时和高精度,并有利于相关的下游任务研究,比如视频的目标检测和视频的实例分割。