第十期CCF-CV“视界无限”系列研讨会于线上成功举办

阅读量:26
2021-09-09


2021年8月29日,由中国计算机学会计算机视觉专委会主办的第10期CCF-CV“视界无限”系列活动——“视觉与语言(Vision & Language)的前沿进展与未来趋势”研讨会通过线上方式成功举办。研讨会邀请了中国人民大学卢志武教授、杨征元博士、中科院自动化所黄岩副研究员、西北工业大学王鹏教授和美团智慧交通平台视觉智能部马林研究员做主题报告并参与圆桌讨论。中国计算机学会计算机视觉专委会主任、北京大学查红彬教授出席活动。本期研讨会由北京航空航天大学人工智能研究院承办,刘偲副教授任执行主席并主持会议。


   中国计算机学会计算机视觉专委会主任、北京大学查红彬教授首先致辞。查教授对参会的各位老师及同学表示欢迎。他指出视界无限系列研讨会是中国计算机学会计算机视觉专委会举办的品牌活动,旨在促进同行之间的相互交流并针对具体的计算机视觉问题进行深入探讨。查教授表示,本次研讨会的主题“视觉与语言”涉及到了智能信息处理当中两个不同模态方面的研究,视觉处理通常是针对一些低层处理,而语言更多是高层次的处理,如果能够将二者很好地结合,使它们在不同层面进行融合或交互,就能够帮助我们找到人工智能处理当中的一些有效办法,为研究提供新的思路。希望本次研讨会能对从事这一领域研究的老师和同学们有所启发。最后代表专委会感谢主办单位各位老师同学为筹办本次研讨会作出的努力,预祝研讨会圆满成功!


 中国人民大学卢志武教授的报告题目是“大规模通用中文多模态预训练模型及其可视化解释”。首先,卢老师介绍了中文多模态预训练面临的数据收集难题以及解决办法,即从互联网上爬取海量图文数据。其次,卢老师介绍了在爬取的弱相关图文数据上设计多模态预训练模型-文澜,并提出了基于DeepSpeed的预训练算法。最后,卢老师通过下游任务评测以及神经元可视化展示了文澜强大的理解能力。


杨征元博士报告的主题是“Visual grounding: Building Cross-Modal Visual-Text Alignment”。他从两个层面定义和讨论了visual grounding,分别是狭义的visual grounding任务以及广义的跨模态表征学习。在第一部分,针对狭义的visual grounding任务,他介绍了一种one-stage grounding方法,大大增加了模型的运算速度和计算精度。他同时也讨论了如何将这一方法进一步优化,延伸至弱监督设定,以及视频任务。在第二部分,他介绍了如何将visual grounding与视觉语言任务结合。分享了使用预训练以及目标对应损失函数等学习visual grounding的方法,及其在视觉问答, captioning, 点云定位等任务上的应用。


中科院自动化所黄岩副研究员的报告题目是”图文匹配研究进展”。首先,他回顾了图文匹配的发展历程,并指出跨模态语义鸿沟和跨模态少样本等是该任务目前所面临的主要挑战。然后,他针对跨模态少样本问题,提出了跨模态长时记忆网络,能够选择性存储和更新成对跨模态小样本特征,以知识复用的方式强化少样本图像和文本之间的关联性。最后,他简要展望了未来研究趋势,并指出细粒度跨模态对齐和图文匹配模型小型化是比较有潜力的研究方向。


   西北工业大学王鹏教授的报告题目是“Richer and Deeper: Vision and Language Understanding with Richer Visual Content and Deeper Non-visual Knowledge”。主要介绍了他在视觉—语言领域两个方面的工作。首先是如何充分挖掘视觉信息中丰富的语义信息,特别是文本信息,从而帮助提升模型的视觉理解与推理。随后他介绍了如何将视觉信息以外的人类知识引入视觉语言模型,从而帮助机器更聪明的理解人类的语言指令。


   美团智慧交通平台视觉智能部研究员马林的报告题目是“Vision+Language: From Captioning to Grounding(视觉与语言结合的研究)”。首先马林介绍了视觉与语言相结合研究上的一些挑战。主要挑战在于文本是结构化的信息,而图像和视频主要是非结构化的信息。如何将结构化的信息和非结构化的信息融合起来共同学习视觉和文本的联合信息是比较大的挑战。随后马林介绍了其团队在描述生成,视频定位,语言指代图像分割等方向的一些研究成果。最后,通过介绍相应的研究工作,马林认为如何设计深度模型来挖掘图像/视频与文本之间的交互关系对解决视觉和文本相结合的任务尤其重要。

   紧接着是panel环节,由北京航空航天大学刘偲老师主持,与各位讲者探讨了视觉与语言的前沿进展与未来趋势。整个研讨会在中午12点圆满结束。


Panel 实 录

为了惠及广大研究者,每期“视界无限”精选嘉宾观点进行分享,以下为本期研讨会Panel实录。

刘偲:大家好,我们今天主要围绕着视觉语言这个主题与各位老师展开探讨。首先请各位老师聊一聊在visual language领域,学术界和工业界的差距主要在哪?未来在工业界的落地点和应用场景有哪些?如何打破学术界和工业界的gap,将visual language推进到实际落地?

马林:首先在真正落地时,面临的现实场景比已有的benchmark数据集合复杂很多。所以在工业上应用时,数据集会限制整个能力的提升。

第二点,工业界还是有很多应用场景,但因为visual language偏底层,很多时候用户并非直接体验到这个技术。能看到的几个点:比如图像及短视频这种信息流的产品,或是对图文信息进行推荐跟搜索时,也会用到大规模预训练模型来操作,只不过它在底层。另外大家以图搜图的时候,比如拍照购物的场景,商品不仅有图像信息也有文本信息,二者融合也能帮助以图搜图的操作。还有对话系统,如果要想变成非常自然的语言场景,也是多模态的,因为大家在聊天过程中也会发图片。还有一些未来应用场景。比如监控,想搜到某个时间点穿什么衣服的人,用自然语言来搜是最常用的。但是目前在业界,技术跟数据集可能还不够充分,所以这方面还有些gap,但整个gap是在不断缩小的。

卢志武:首先在文澜2.0出来以后,华为特别希望在图文检索上面把这种多模态预训练的东西用进去,我们也的确看到了很好的效果。第二是文澜3.0想做的事情:视频加文本的预训练,把它做好对视频推荐功能也会有很大帮助。还有就是各种用户创作,也是很有潜力的一点。

黄岩:刚才提到的跨模态创作,比如用语言生成图像视频,目前我所了解到的有不少公司对此技术有较大需求。另一块也和创作相关,像文章自动配图和新闻自动配图。至于gap,应该是说如何在大规模数据有噪声的情况下让模型优化得更好。

刘偲:好的,谢谢各位老师。其实近几年视觉语言模型在落地中确实有了很大进展,但相比于单一模态,还会存在哪些优势或者瓶颈?以及应该如何在多模态预训练中合理使用带噪声的数据呢?

马林:我觉得相比单一模态整体还是更具优势的。首先数据往往还是多模态的情况:无论在互联网或其他场景,基本是短视频信息流或图文以及各种评论信息。如果模型设计的好,会把信息吸收进来帮助整个模型提升,或者如果它真的是噪音,也可以过滤掉。所以怎样更好地利用噪音数据是一个重要的点。

杨征元:总体是有优势的,如果真说劣势,可能一些传统模型在input模态的地方不够灵活,但这更多是模型的问题,不是多模态本身的问题。

黄岩:我接触的实际需求更多是做多模态融合,比如以前做单纯基于视觉的效果已经挺好,但把文本、语音等其他模态用上,可以做得更好。另一个情况是,比如一种模态在某些情况下表现不好,而另一个模态在该情况下很稳定,因此还可以利用多模态之间的互补性。另外,关于噪声的数据,大家可能更多地倾向于使用主动学习或者是数据挖掘的方式,机器学习领域有很多研究人员在探索这一块。但是如何放到多模态场景下做得比较好,目前好像还没人去考虑这部分。

卢志武:我们做多模态的时候,面临第一个问题就是爬数据,因为现存的中文数据太少了。我们观察到,中国人说话很含蓄,可能转了两三道弯才能把图文联系上。所以在对数据做完一些简单的清洗后,觉得这些东西应该留着,最后在6.5亿图文对里面只筛掉很少敏感数据。在我们的多模态模型训练完以后,再去分析它就会发现这是个好事情,比如涉及到抽象理解,我们的模型有优势了,而这个能力其实就是从数据中学来的。所以有时候我们大家认为的噪声不一定是噪声。

刘偲:我们进入下一个问题。利用unpaired视觉语言数据进行无监督训练得到的模型会不会有bias?如果存在,目前有哪些方式可以缓解bias的问题?

卢志武:肯定会面临这个问题,但我们的处理方式是很简单的。相当于永远先把unpaired数据当成单模态的,每个单模态先训练好,最后拿paired的数据去把跨模态那部分数据训练好,大概做法就是这样的。甚至在跨模态里面也可以把那些单模态自监督的loss加上,目前来看效果还是挺好的。

刘偲:下一个问题是多模态预训练模型是不是可以提升对单模态的理解?如何通过多模态预训练模型提升单模态特征的表示能力?

卢志武:这要通过实验证明,比如说在文本模态上,同为文本encoder,通过单模态和多模态预训练得到的模型进行对比,如果多模态训练效果好才能证明它是有价值的。所以我们做了中文新闻分类实验,初步证明了多模态的效果。同时我们也和自动化所一位老师合作,想通过脑机接口进一步回答这个问题,目前初步得到一些结论:通过多模态预训练的文澜,在类脑指数上确实要比单模态训练高。

马林:我还是从视觉跟语言两个模态不在一个level上来说。从NLP角度来看,文本其实相当于比较高级抽象的语义信息。中文或英文的词表其实是比较小的,比如中文常用词可能大约是万级别的,到字来说就几千,每个字和词的语义不一样而且是高度抽象的。而视觉信息就偏底层,每个pixel其实没有语义信息。所以我觉得多模态预训练的模型,对视觉上面的提升更多一些。假如纯NLP的数据,它的广度以及词汇数据量对于tonken来说已经非常多了,但是对于视觉来说,整个视频或者图像,结构也还是比较少的。

杨征元:我看到多模态首先第一点:同是visual tasks,对于那些相对比较long-tail的部分或者训练的比较少想要一般化的时候,他会对性能和收敛的速度有好处。比方language对visual,language有更多标签以外的东西,所以多少会看到一些long-tail的东西,也会有帮助。第二点,我之前看到更多的帮助也是在visual那端。但如果有一些特殊任务,或者在一些情况下对NLP有帮助的话,那这个事情其实挺有启发性的。

刘偲:下一个问题是目前这个视觉语言模型大家都认为是从感知往认知方向的过渡,它有一定的认知但和跟人类相比还是有一些差距。各位老师认为,如果要达到人类认知的水平,差距主要在哪里,未来该如何弥补?

杨征元:我觉得这个问题前半部分比较好答,大家都知道有这样的问题,但至于未来怎么做,还是有挑战的。比如对于大模型,给它few shots的例子是否真的能adapt。这一点GTP-3展示了一些,但还是存在差距。

另外,对于GTP或者文澜这样的大模型,它可能是去年训练好的,不知道今年的信息,要怎么样合理地把它加进去也是一个重要的问题。

最后还是回到data。模型感知的data质量和人不是完全一致。

所以总结起来,第一步还是需要更好地理解现有这些很强的模型,然后下一步才是基于我们的理解做一些事情。

马林:现在学的更多是数据共生的pattern,其实跟人类认知的差距还是挺大的。人类对few shots和one shot的理解能力还是蛮强的,预训练模型现在还不能完成这样的任务,尤其是需要强推理时,或是对脑的认知方面。第二点,至于未来如何弥补。现在很多做symbolic reasoning,这也是对knowledge的一个表示方式,可能是一个未来。这好比从人的角度来说是举一反三,从模型的角度来说是有历史规律的总结。再者如果能对可解释性做更好的挖掘,也是一种方法。    

黄岩:我当时跟做生物和心理的研究人员交流过,他们推荐我一本书叫《认知心理学》。虽然是心理学领域的书,但主要是在介绍什么是认知机制或者认知过程,并由浅入深地包括视觉注意、记忆、长短时记忆,还有相应的知识推理、决策等。这些认知机制或者过程跟现在一些模型是很相似的。像transformer或attention,就是对视觉注意进行建模;像memory、神经图灵机,或者长短时记忆网络也是受到记忆机制建模启发;像symbolic reasoning就是关于推理机制建模;现在我们做的强化学习,其实更多是跟决策关联在一起的,它们本身就是人类的认知机制从底层到高层的演变过程。所以一个可能思路是,在基础网络框架之上去建模多种认知机制,包括视觉注意,记忆推理,决策等,即深度认知学习。

刘偲:最后一个问题是当前基于大规模数据预训练的视觉语言模型取得了优异的性能,而类似symbolic reasoning一类的推理方法的性能却不尽如人意,那未来基于推理的方法会不会逐步被预训练所取代?我看到有一些方法,其实也已经把知识图谱结合在预训练模型当中了,结合知识的预训练模型,是不是可以呢?

杨征元:现在一些文章说大规模预训练模型在之前reasoning benchmark上已经做的比reasoning的方法好了,但我还一直期待能看到究竟要怎么样去理解这些东西,有时候可能只是通过数据找到了一条short cut,刚好适配了reasoning的testing set。

卢志武:目前一些观点觉得预训练就是over fitting或是模板学习,我其实不太认可这个观点。我们做了很多的可视化分析,比如我做报告使用的遥感例子,对于棒球场俯视的概念,我们预训练数据里是没有的,而我们模型是真正学到这个概念之后推广到棒球场上去了,这也算是认知能力的一种,甚至可以说是某种推理能力。