第一百零八期CCF-CV走进高校系列报告会于北京科技大学成功举办

阅读量:25
2021-11-03


2021年10月24日下午,中国计算机学会计算机视觉专委会(CCF-CV)走进高校系列报告会第108期活动——“计算机视觉前沿技术及应用”通过线上直播的形式在北京科技大学成功举行。本期报告会由北京科技大学自动化学院“机器视觉与智能感知”梯队承办,邀请了清华大学季向阳教授,西北工业大学韩军伟教授,中科院自动化所王亮研究员三位专家做特邀报告,由北京科技大学自动化学院“机器视觉与智能感知”梯队樊彬教授和刘红敏教授担任本次报告会的执行主席。在本次报告会上,专家们围绕“计算机视觉前沿技术及应用”做了精彩报告,并在问答环节就计算机视觉领域的多个前沿学术问题、热点应用问题进行了深入的探讨,引起了广泛的共鸣。

报告会由北京科技大学自动化学院樊彬教授、刘红敏教授共同主持。报告会开始由北京科技大学自动化学院院长张朝晖教授致欢迎辞,他首先对三位报告嘉宾的到来表示热烈的欢迎和衷心的感谢,并希望以此为契机加强沟通与交流,争取进行更深层次的合作。随后,张朝晖教授介绍了北京科技大学自动化学院的基本情况,希望通过各位专家的精彩报告和深入讨论,为计算机视觉前沿技术的研究与应用、计算机视觉与脑科学等学科的融合带来重要的指引和启发。最后,对全国各大高校与会专家学者的到来,以及中国计算机学会计算机视觉专委会为本次活动的艰苦付出,表示衷心的感谢。

报告信息

清华大学季向阳教授的报告题目是“基于视觉的物体位姿估计”。传统的6D物体位姿估计需要借助深度信息,但是深度信息的获取存在较多局限性,因此迫切需要能适应多种场景且不依赖深度信息的物体姿态估计方法。报告首先介绍了一种基于深度网络的位姿迭代匹配框架DeepIM,该框架以放大后的观测图像和渲染图像为输入,不断估计更加准确的位姿,并获得新的渲染图像进行迭代匹配。接着介绍了一种基于坐标的解耦式位姿估计法CDPN,它能够独立的预测旋转和平移来实现高精度和稳定的姿态估计,该方法在LINEMOD数据集上实现SOTA,并获得ICCV19、ECCV20物体位姿估计大赛冠军。随后,季教授介绍了基于几何引导的单目图像物体位姿直接回归网络GDR-Net,该方法用2D特征图来表达间接法中的稠密匹配,从而将学习稠密对应关系和回归6D姿态用一个端到端的网络统一起来。最后,针对真实6D物体位姿获取困难的问题,季教授介绍了利用强化学习实现无真实位姿标注情况下6D位姿估计以及自监督6D位姿估计方法。

西北工业大学韩军伟教授的报告题目是“破译大脑理解多媒体的初步探索”。报告首先介绍了脑神经媒体组学这个新兴方向的有关概念,即使用脑成像技术观测大脑在观看多媒体时的反应,并提取脑功能计算特征,以此为计算机的视觉理解能力提供指导。多项实验显示,自然范式下的脑功能活动在相同被试中具有可重复性,这也就表明自然范式fMRI信号与认知活动密切相关并且理解不同类型视频的脑神经环路不同。基于此,韩教授团队对人脑的功能区进行标记定位,并探索了不同脑区对于不同多媒体应用的响应情况。最后介绍了多媒体刺激下的神经编解码,以数据驱动方式探索了脑网络不同成分对于多媒体理解任务的工作机理。

中科院自动化所王亮研究员的报告题目是“面向复杂视觉任务的多模态深度学习”。报告以近些年来计算机视觉领域依托深度学习算法取得巨大进展,很多基础视觉任务例如目标识别和检测,在一般场景下基本已经得到解决,甚至取得超过人类的精度为背景展开。指出即使现在最先进的深度学习算法仍然无法很好地处理复杂视觉任务的问题。这些复杂视觉任务不仅是一系列基础视觉任务的集成,而且还对算法信息提取、存储与推理等能力有着较高要求。报告首先分析复杂视觉任务的主要挑战,然后介绍如何利用多模态深度学习算法来进行处理,重点围绕跨模态比如图像和文本内容的匹配及检索展开,报告最后简要分析未来可能的发展方向。

除此之外,每位专家在自己的报告环节结束后,分别回答了由线上平台收集到的听众们提出的问题。报告会最后,主持人樊彬教授对报告会进行总结发言。他首先对进行报告的各位嘉宾以及CCF-CV专委会表示衷心的感谢,并希望以本次报告会为契机,欢迎全国计算机视觉领域的同行们来北京科技大学交流指导,拉近在校学生和专家学者之间的距离,为计算机视觉的发展持续地注入新鲜活力。