【预告】CCF-CV视界无限系列研讨会(第十三期,视觉Transformer与Attention的前沿进展与未来趋势)

阅读量:0
2022-08-30


主题:视觉Transformer与Attention的前沿进展与未来趋势

执行主席:程明明,张乐,侯淇彬

时间:2022年5月17日 8:30-12:10

直播地址:https://live.bilibili.com/22339632

程 序

嘉宾致辞

8:30–8:40

王亮 CCF-CV专委会副主任

主题报告

8:40–9:10

鲁继文 清华大学

主题:视觉基础模型及应用

9:10–9:40

王利民 南京大学

主题:基于注意力机制的视频表征学习与目标跟踪

9:40–10:10

张力 复旦大学

主题:不依赖于Softmax的线性复杂度自注意力模型

10:10–10:40

侯淇彬 南开大学

主题:如何更好地训练视觉Transformer

10:40–11:10

国孟昊 清华大学

主题:视觉注意力网络

深度研讨

11:10–12:10

视觉Transformer与Attention的前沿进展与未来趋势

嘉宾:鲁继文、王利民、张力、侯淇彬、国孟昊

主持人:程明明


讲 者 / 报 告 信 息

鲁继文,清华大学自动化系长聘副教授,博士生导师,国家杰出青年科学基金获得者,IAPR Fellow,国际期刊Pattern Recognition Letters主编。主要研究领域为计算机视觉与模式识别,在PAMI、CVPR、ICCV、ECCV上发表论文130余篇,授权国家发明专利40余项,主持承担国家自然科学基金联合重点项目、优秀青年科学基金、国家重点研发计划课题等科研项目10余项,以第一完成人获中国电子学会自然科学一等奖1项,担任国际期刊IEEE T-IP、T-CSVT、T-BIOM和Pattern Recognition编委,国际会议ICME2022大会主席,FG2023、VCIP2022、VASS2021和ICME2020程序委员会主席。

报告题目:视觉基础模型及应用

基础模型是人工智能领域的研究热点,在计算机视觉和自然语言处理等多个领域中均取得了优异的性能,是视觉监控、自动驾驶、智能终端等重要应用的支撑性技术。报告将从模型架构和学习范式两方面回顾视觉基础模型近年来的研究进展,同时介绍清华大学智能视觉实验室在视觉基础模型方面所开展的一些工作,主要包括动态稀疏模型、全局滤波模型、球面分形模型、和几何敏感模型等,以及它们在目标检测与分割、物体分类与识别、图像与视频检索、三维重建与识别等视觉任务中的应用。

王利民,南京大学教授,博士生导师,主要研究领域为计算机视觉和深度学习,具体关注视频理解和动作识别等,在IJCV、T-PAMI、CVPR、ICCV等重要学术期刊和会议发表论文50余篇,根据Google Scholar统计,论文被引用 13000余次,两篇一作论文取得了单篇引用超过2000的学术影响力,提出的TSN网络获得首届ActivityNet比赛冠军,已经成为动作识别领域基准方法。2018年入选国家高层次青年人才计划,曾获得广东省技术发明一等奖,世界人工智能大会青年优秀论文奖,入选AI 2000人工智能全球最具影响力学者榜单(计算机视觉方向),2021爱思唯尔中国高被引学者榜单。

报告题目:基于注意力机制的视频表征学习与目标跟踪

视频理解已经成为人工智能研究的热点和难点,其中人体动作识别已经成为视频理解领域的关键技术之一。在本次报告中,我们主要介绍南京大学媒体计算组(MCG)在视频动作识别和目标跟踪方面的系列工作。首先,针对视频运动表征与建模,我们提出了高效和动态的时序建模模块(TEINet,TAM,TDN), 在计算效率和建模精度方面取得较优效果。其次,针对视频模型的自监督预训练,我们提出了基于掩码自编码器的视频高效学习方法VideoMAE,验证了MAE一种数据高效的Transformer自监督训练框架,并且在动作识别主流数据库上取得了优异的识别性能。最后,针对视频目标跟踪技术,我们提出了更加简洁的单目标跟踪框架MixFormer,统一了特征提取和特征融合模块,在5个主流跟踪数据集都取得了目前最好的跟踪精度。最后将总结和展望视频理解的发展趋势。

张力,复旦大学青年研究员,博士生导师,上海科技青年35人引领计划 (35U35)。博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,任职于牛津大学工程科学系博士后,剑桥三星人工智能研究中心研究科学家。致力于计算机视觉与深度学习方向的研究,在本领域顶级期刊和会议发表论文30余篇,Google Scholar 近五年引用数超过6000次。针对人工智能卷积神经网络无法高效获取长范围结构信息的难题,提出动态图信息传递模型 DGMN (CVPR 20 Oral),语义分割模型SETR (CVPR 21),以及解决Transformer大模型计算复杂度二次增长难题的线性化模型SOFT (NeurIPS 21 spotlight),上述工作均已成为领域内的基准。

报告题目:不依赖于 Softmax 的线性复杂度自注意力模型

Vision transformers 推动了各项视觉识别任务中的进展,但是在计算和存储方面都存在二次复杂度。具体来说,传统的自注意力计算需要对特征向量之间的点积缩放后进行 softmax 归一化。保持该 softmax 操作对任何线性化的方法都是一个障碍。本工作提出不依赖于 softmax 的 Transformer 模型,使用无行归一的高斯核函数来代替之前的点积注意力,并基于此构建低秩的矩阵分解逼近满注意力矩阵。采用 Newton-Raphson 方法来保证近似的鲁棒性并实现近似中涉及的 Moore-Penrose 逆计算。在大规模图像识别数据集 ImageNet 上的实验表明该线性化方法能够显著提升现有 Transformer 模型的计算效率,获得准确性和复杂性之间一个更优越的权衡。

侯淇彬,副教授,南开大学“百青计划”入选者。于2019年在南开大学获得博士学位,之后在新加坡国立大学从事博士后研究工作,主要研究方向为计算机视觉与深度学习。目前已在IEEE TPAMI / NeurIPS / CVPR / ICCV等国际顶级期刊及会议上发表论文20余篇,Google Scholar引用4000+,单篇最高引用1100+,研究成果应用于华为旗舰手机智能拍照系统中并获得了华为公司2017年度优秀合作成果奖,入选第七届中国科协青年人才托举计划。

报告题目:如何更好地训练视觉Transformer

近年来,视觉Transformer快速推动了视觉中多项识别任务的发展。在多数视觉任务中,基于Transformer的网络结构在性能方面已逐渐优于传统的CNN网络。在本次报告中,我们将介绍如何借助CNN能够精准定位目标物体的能力进一步提升视觉Transformer的性能。基于这个动机,我们提出了Token Labeling的训练策略,通过给视觉Transformer的每个输出Token赋予一个来自CNN预测结果的监督信息,可有效提升视觉Transformer的识别能力。我们同样说明基于Token Labeling训练策略的预训练模型在语义分割等下游任务中仍有较好的表现。

国孟昊,清华大学计算机系在读博士生,导师为胡事民教授。研究方向为计算机视觉、视觉注意力、计算机图形学和深度学习。目前,已经在 ICLR、ACM TOG、IPMI、CVMJ等国际期刊和会议上发表多篇论文。同时,他也是深度学习框架计图的核心开发成员之一。

报告题目:视觉注意力网络

认知科学中,注意力机制是指在处理信息时,人类会选择性的关注重点的部分,而忽略一些无关的信息。近来,注意力机制在计算机视觉中得到了广泛的关注,基于自注意力机制的视觉 Transformer 模型已经在各种视觉任务中取得了巨大的成功。本次报告将以计算机视觉中的注意力机制为中心,重点讨论三个问题:(1)当我们在谈论视觉注意力的时候,我们在谈论什么?(2)视觉 Transformer 的成功之道以及它存在的不足之处。(3)一种不同于 Transformer 的新型视觉注意力网络。

执 行 主 席

程明明,南开大学教授,计算机系主任,国家“万人计划”青拔、“优青”。他的主要研究方向是计算机视觉和计算机图形学,在SCI一区/CCF A类刊物上发表学术论文100余篇(含IEEE TPAMI论文20篇),论文谷歌引用2万余次,单篇最高引用4000余次,连续5年入选Elsevier中国高被引学者榜单。技术成果被应用于华为、推想、金风、和中化农业等。获得多项省部级科技奖励。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和SCI一区期刊IEEE TPAMI, IEEE TIP编委。

张乐,电子科技大学教授,博士生导师,2019年入选国家高层次青年人才计划。博士毕业于新加坡南洋理工大学,之后在UIUC新加坡高级研究中心,新加坡A*STAR从事博士后研究工作,以集成学习为中心,开展了深度学习、计算机视觉、无线感知、医疗图像处理等多方向的交叉研究。在相关领域发表高水平论文50余篇(如IEEE TPAMI、IJCV等),论文谷歌引用5000+,多篇论文入选ESI高被引论文。担任Neurocomputing、IET Biometrics编委以及IEEE Trans on Big Data、Pattern Recognition等期刊的客座编辑。在AAAI/IJCAI等知名会议上多次举办深度学习相关研讨会。

侯淇彬,副教授,南开大学“百青计划”入选者。于2019年在南开大学获得博士学位,之后在新加坡国立大学从事博士后研究工作,主要研究方向为计算机视觉与深度学习。目前已在IEEE TPAMI / NeurIPS / CVPR / ICCV等国际顶级期刊及会议上发表论文20余篇,Google Scholar引用4000+,单篇最高引用1100+,研究成果应用于华为旗舰手机智能拍照系统中并获得了华为公司2017年度优秀合作成果奖,入选第七届中国科协青年人才托举计划。

参 加 活 动

本次“视界无限”专题研讨会欢迎国内外高校和企业界的研究者、师生、媒体朋友及其他感兴趣者参加,参会者无需缴费。您可以直接访问B站直播地址https://live.bilibili.com/22339632进入直播间。该地址是CCF计算机视觉专委会的官方账号,欢迎关注和订阅。为了能在直播中参与弹幕互动,请您提前注册好平台账号,并在观看直播时登录账号。

视界无限”活动介绍

视界无限”是中国计算机学会计算机视觉专委会(CCF-CV)的品牌学术活动。每季度举办一次,全年四次。每次活动由1-2位计算机视觉专委委员负责召集和组织,围绕计算机视觉领域某一主题,组织资深的研究者与优秀青年学者进行全方位的深入研讨,总结该主题前沿进展与未来趋势。

活动面向计算机视觉领域研究者开放申请,如您有意申请并组织“视界无限”活动,请与计算机视觉专委会秘书处联系。联系人:

杨巨峰,yangjufeng@nankai.edu.cn

黄 岩,yhuang@nlpr.ia.ac.cn