视界无限-【预告】CCF-CV 视界无限系列研讨会（第十期，视觉与语言）

【预告】CCF-CV 视界无限系列研讨会（第十期，视觉与语言）

阅读量：454

2021-08-28

主题：视觉与语言（Vision & Language）的前沿进展与未来趋势

时间：2021年8月29日 08:20-12:00

执行主席：刘偲博士、北京航空航天大学副教授

直播地址：https://live.bilibili.com/22339632

程序

嘉宾致辞

08:20- 08:30 查红彬中国计算机学会计算机视觉专委会主任、北京大学教授

主题报告

08:30–09:00 卢志武中国人民大学教授

主题：大规模通用中文多模态预训练模型及其可视化解释

09:00-09:30 杨征元 researcher at Microsoft

主题：Visual Grounding: Building Cross-Modal Visual-Text Alignment

09:30-10:00 黄岩中科院自动化所副研究员

主题：图文匹配研究进展

10:00–10:30 王鹏西北工业大学教授

主题：Richer and Deeper: Vision and Language Understanding with Richer Visual Content and Deeper Non-visual Knowledge

10:30–11:00 马林美团智慧交通平台视觉智能部研究员

主题：Vision+Language: From Captioning to Grounding（视觉与语言结合的研究）

深度研讨

11:00– 12:00 视觉与语言的前沿进展与未来趋势

嘉宾：卢志武、杨征元、黄岩、王鹏、马林

讲者 / 报告信息

卢志武，中国人民大学高瓴人工智能学院教授，博士生导师。主要研究方向包括机器学习、计算机视觉等。以主要作者身份发表学术论文70余篇，其中在TPAMI、IJCV、TIP等重要国际期刊和ICLR、NeurIPS、CVPR、ICCV、ECCV等重要国际会议上发表论文40余篇。设计首个中文通用图文预训练模型-文澜。

报告主题：大规模通用中文多模态预训练模型及其可视化解释

报告摘要：近年来，大规模多模态预训练成为人工智能领域研究热点。现有工作大多假设图文之间存在强语义相关，而这与现实世界并不相符，在预训练数据为网络爬取数据的情况下尤其如此。针对这一问题，我们从图文弱相关性的假设出发，提出了一种双塔结构的预训练模型-文澜。文澜的预训练核心算法为跨模态对比学习，并利用DeepSpeed进行加速。多个下游任务上的实验结果证明了文澜的有效性，并且神经元可视化也进一步展示了文澜的强大理解能力。

Zhengyuan Yang (杨征元) is a researcher at Microsoft. He got his Ph.D. in Computer Science at the University of Rochester advised by Prof. Jiebo Luo, and his bachelor at the University of Science and Technology of China (USTC) in 2016. He received the ICPR 2018 Best Industry Related Paper Award, Twitch Research Fellowship, and won the TextCaps challenge and ReferIt3D challenge in CVPR 2021. His research interests involve vision language and multi-modal learning.

报告主题：Visual Grounding: Building Cross-Modal Visual-Text Alignment

报告摘要：Visual grounding aims to build fine-grained alignments between visual entities and language referrings. In this talk, we define and introduce visual grounding at two levels. As a narrow definition, visual grounding refers to the task that grounds a natural language query into a visual region that the query refers to, e.g., a bounding box in an image or a box sequence in a video. As a generalized definition, visual grounding refers to the explicit or implicit cross-modal alignment learning between visual regions and language phrases. For the first part, we introduce our previous works on image and video visual grounding. For the second part, we show how to incorporate visual grounding to assist other vision-and-language tasks. Specifically, we present different ways of learning the cross-modality alignments and apply them for various vision-and-language tasks, such as Text-VQA, Text-Captioning, 3D visual grounding, etc.

黄岩，中科院自动化所副研究员，2012年本科毕业于电子科技大学，2017年博士毕业于中科院自动化所。研究方向为视觉-语言理解和视频分析，在相关领域的国内外期刊和会议上发表论文共计70余篇，曾获CVPR Workshop最佳论文奖、ICPR最佳学生论文奖等，并担任CVPR2020和ICCV2019上3次多模态主题研讨会的共同组织主席。曾获得中国科学院院长特别奖、中国人工智能学会优秀博士论文奖、百度奖学金、NVIDIA创新研究奖。入选中国科协青年人才托举工程、北京市科技新星计划和微软铸星计划。

报告主题：图文匹配研究进展

报告摘要：图文匹配（Image-Text Matching）是视觉-语言理解领域的基础任务之一，与传统跨模态检索的主要区别之一在于其弱监督的数据标注。近年来，大量研究人员围绕此任务进行了深入研究，特别是在视觉-语言预训练模型出现之后，该任务的精度被迅速提升到高位，甚至开始接近饱和。本报告首先梳理该任务的相关代表性方法，然后总结目前的主要技术难题，并探讨相应的解决思路和未来研究方向。

王鹏，西北工业大学计算机学院教授，分别于2004和2011年在北京航空航天大学获得学士和博士学位；2012年至2016年在澳大利亚阿德莱德大学从事科研工作；2017年入选国家级青年人才计划，并加入西北工业大学计算机学院担任教授、博导，同时担任空天地海一体化大数据应用技术国家工程实验室主任助理。本人长期致力于计算机视觉、机器学习和人工智能等领域的研究。承担科技部“新一代人工智能”青年科学家项目1项。近年来在CCF A类期刊会议发表论文20余篇，其中TPAMI 6篇，IJCV 3篇。

报告主题：Richer and Deeper: Vision and Language Understanding with Richer Visual Content and Deeper Non-visual Knowledge

报告摘要：In this talk, I will introduce two recent works on vision and language understanding. The first one is a question-conditioned graph attention network for TextVQA, which is capable of reasoning over a heterogenous graph with text and object nodes. The second one is a dataset and pipeline that performs referring expression understanding using external commonsense knowledge. By incorporating more visual and non-visual information, we see an increasingly comprehensive visual reasoning ability.

马林，现任美团智慧交通平台视觉智能部研究员，曾任腾讯AI Lab专家研究员。他于2013年在香港中文大学电子工程系获得博士学位，分别于2006和2008年在哈尔滨工业大学计算机学院获得本科与硕士学位。他现在主要从事深度学习、计算机视觉，视频分析与理解等，尤其是视觉与语言的多模态深度学习方面的研究。在领域顶级会议和期刊，如TPAMI，CVPR，ECCV，ICCV，NeurIPS，ICML，ACL，EMNLP等发表多篇论文，迄今google scholar引用5200+次。

报告主题：Vision+Language: From Captioning to Grounding（视觉与语言结合的研究）

报告摘要：联合视觉与语言的多模态学习，已经逐步成为业界的研究热点。结合文本信息，可以更深度的理解图像/视频等视觉信号。本演讲将介绍视觉与语言结合上的一些新的研究进展，主要集中于描述生成，视频定位，语言指代图像分割等。对于视频描述生成，提出编码器-解码器-重构器的框架，充分利用视频到文本和文本到视频双向信息，进而提升视频描述生成的能力。对于密集视频描述生成，不仅需要对视频进行定位，还需要为每一个定位的片段生成文本描述。构建了一个新的端到端的深度网络模型，同时完成视频的定位和描述生成。对于视频的定位，构建了新的时域定位网络用于快速的定位自然语句对应的视频片段。同时为了降低人工标注的数据需求，提出通过弱监督的方式定位与自然语句语义相关的是空域视频片段。

执行主席

刘偲，北航副教授，博导。研究方向是跨模态多媒体智能分析（跨模态包含自然语言，计算机视觉以及声音等）以及经典计算机视觉任务（目标检测、跟踪和分割）。共发表了CCF A类论文50余篇，其研究成果发表于TPAMI、IJCV和CVPR等。Google Scholar引用7300+次。带领学生获得10项CVPR、ICCV、ACL等国际竞赛冠军。主办了ECCV 2018、ICCV 2019、CVPR 2021 ‘Person in Context’ workshop。多次担任ICCV、CVPR、ECCV、MM等会议AC。

参加活动

本次“视界无限”专题研讨会欢迎国内外高校和企业界的研究者、师生、媒体朋友及其他感兴趣者参加，参会者无需缴费。您可以直接访问B站直播地址https://live.bilibili.com/22339632进入直播间。该地址是CCF计算机视觉专委会的官方账号，欢迎关注和订阅。为了能在直播中参与弹幕互动，请您提前注册好平台账号，并在观看直播时登录账号。直播间将于2021年8月29日8:00开放，欢迎大家前来观看。

“视界无限”活动介绍

“视界无限”是由中国计算机学会计算机视觉专委会（CCF-CV）的品牌学术活动。每季度举办一次，全年四次。每次活动由1-2位计算机视觉专委委员负责召集和组织，围绕计算机视觉领域某一主题，组织资深的研究者与优秀青年学者进行全方位的深入研讨，总结该主题前沿进展与未来趋势。

活动面向计算机视觉领域研究者开放申请，如您有意申请并组织“视界无限”活动，请与计算机视觉专委会秘书处联系。联系人：

杨巨峰，yangjufeng@nankai.edu.cn

黄岩，yhuang@nlpr.ia.ac.cn

<<< 上一篇第十期CCF-CV“视界无限”系列研讨会于线上成

【CCF-CV · 视界专访】清华大学徐光祐教授专下一篇 >>>

<<< 下一篇【CCF-CV · 视界专访】清华大学徐光祐教授专

【预告】CCF-CV 视界无限系列研讨会（第十期，视觉与语言）

推荐内容

计算机视觉专委会