第四期CCF-CV“视界无限”系列研讨会于大连理工大学圆满结束

阅读量:1731
2019-10-22


2019年10月12日,由中国计算机学会计算机视觉专委会主办、大连理工大学电子信息与电气工程学部承办的第4期CCF-CV “视界无限”系列活动——“视觉目标跟踪(VOT)前沿进展与未来趋势”研讨会在大连理工大学创新创业学院成功举行。本期研讨会由计算机视觉专委会常务委员、大连理工大学创新创业学院院长卢湖川教授、大连理工大学王栋副教授、大连理工大学张立和副教授组织和主持。研讨会邀请了安徽大学罗斌教授、哈尔滨工业大学左旺孟教授、清华大学鲁继文副教授、上海交通大学马超博士、微软亚洲研究院彭厚文博士、安徽大学李成龙博士、大连理工大学王栋博士做主题报告及深度研讨。来自全国高校和企业的100余名参会者汇聚大连,就视觉目标跟踪前沿进展及未来趋势进行了热烈的交流和深入细致的探讨。


会议议程依次包括主题报告、海报/系统展示、深度研讨三部分。首先,计算机视觉专委会常务委员、大连理工大学卢湖川教授致辞。卢老师对与会嘉宾和师生表示欢迎,然后介绍了计算机视觉专委会的组织结构、职能目标、举办的主要活动,以及“视界无限”系列活动的宗旨和目标。卢老师指出,在刚刚结束的RACV 2019会议上,专家们预测了计算机视觉领域未来5-10年的若干研究热点,视频分析和理解尤其是视觉目标跟踪位列其中。大连理工大学科研团队从2008年开始相关领域的研究,与国内其他研究者一起提出了一系列benchmark,取得了多项重要成果,中国学者在该领域的声音越来越大,尤其是竞赛表现非常出色。希望通过举办本次活动,深入研讨并继续推动视觉目标跟踪同行之间的交流、促进合作、提升影响力,给国内同行带来启示,并祝愿研讨会圆满成功。


在主题报告环节,罗斌教授的报告题目是“视觉跟踪的近期研究和进展”。针对视觉跟踪问题的几个特定挑战,分四个方面介绍团队近几年的相关研究成果。(1)针对目标矩形包围盒的背景引入问题,提出图表示学习算法,抑制背景成分对目标特征的影响;(2)针对训练数据的正样本弱问题,提出实例对抗生成网络,提高正样本训练数据的规模和多样性;(3)针对训练数据不足问题,提出多层次挑战感知网络,利用视频帧的挑战标注提升网络判别性能;(4)针对可见光传感器的成像受限问题,引入对光线变化和天气条件不敏感的红外热成像传感器,提出融合可见光和热红外信息的多种模型和方法,有效利用两者的互补优势,实现稳健跟踪。此外,还在报告中指出基于多模态信息融合的视觉跟踪算法是未来趋势。


左旺孟教授的报告题目是“视觉跟踪的相关滤波器方法研究:改进与拓展”,重点从判别项和正则化项两方面针对视觉目标跟踪中的相关滤波算法进行探索与研究。首先,考虑到大间隔模型在学习和分类问题中往往能取得更好的性能,通过将hinge损失引入相关滤波器模型,提出了一种支持相关滤波器模型,并给出了相应的快速求解算法。其次,在正则化项方面,提出了一种时域正则化项,并分析了空域正则化项与cosine窗口的关系。最后,结合截断优化算法展开的思想,给出了一种相关滤波器与卷积特征的联合学习模型。在报告中还深入分析了cosine窗口在视觉目标跟踪中的作用,以及对合适采用cosine窗口还是不采用进行了细致的分析。


鲁继文副教授的报告题目是“深度强化学习与视觉内容理解”,重点了介绍清华大学自动化系智能视觉实验室近年来提出的面向视觉内容理解的多个深度强化学习方法,主要包括多智能体深度强化学习、图深度强化学习、和结构化深度强化学习等,以及它们在视觉跟踪、行为预测、行人再识别、和模型压缩等多个视觉内容理解任务中的应用。


马超博士的报告题目为“基于深度回归模型的视觉目标跟踪方法”,介绍了如何利用深度回归模型提升视觉目标跟踪算法的精确度和鲁棒性。主要包含三方面内容:(1) 基于多级卷积特征的自适应相关滤波算法;(2) 利用shrinkage loss训练深度回归网络并用于跟踪;(3) 基于目标感知回归和非监督回归的视觉跟踪算法。并从自学习和无监督学习角度讨论了监督信息缺乏或丧失情况下如何设计适用于解决跟踪问题的深度回归网络。


彭厚文博士的报告题目为“Deeper and Wider Siamese Networks for Real-time Visual Tracking”,首先深入分析了为什么之前的跟踪算法不能受益于更深的深度神经为网络,从感受野、图像padding、网络stride等多个角度进行讨论,给出跟踪主干网络设计指南。新设计的主干网络能够显著提升SiamFC和SiamRPN算法的精度;随后,介绍了团队在RGB长时目标跟踪和RGB-D长时目标跟踪方面的尝试和初步结果;最后,展示了视觉目标跟踪在微软实际项目中的落地应用,指出了未来跟踪算法在体育视频分析中将有越来越多的应用。


李成龙博士的报告题目为“基于多适配器网络的RGBT视觉跟踪”,重点介绍了如何利用多模态信息处理热红外成像下的视觉目标跟踪问题,为了有效提取多模态特征,提出包含通用适配器、模态适配器和实例适配器的多适配器网络模型,分别对模态共享表示、模态特定表示和实例感知表示进行建模。为了充分利用模态之间的互补优势,提出模态适配器相互学习模块,在不同模态之间传播互补特征,并抑制噪声干扰。


王栋博士的报告题目是“长时视觉跟踪:全新机遇与挑战”,重点介绍了长时跟踪问题及其与短时跟踪问题的联系与区别以及新的机遇与挑战,以及大连理工大学卢湖川教授、王栋副教授团队在VOT2018长时比赛冠军算法和ICCV2019最新工作为基础,介绍长时视觉跟踪前沿进展以及深度学习算法在长时目标跟踪问题上的初步探索。


在海报展示环节,共有来自全国高校的10篇论文海报,为与会者提供了更多细致交流和深入探讨问题的机会。



在Panel环节,与会嘉宾与现场师生就“VOT的局限及与MOT的区别”、“深度特征与时序建模”、“VOT发展前景”、“CV领域发展前景”等问题展开热烈讨论,参会者也就自己关心的问题与嘉宾交换了观点。


最后,第4期“视界无限”研讨会在热烈的掌声中圆满结束。

观 点 分 享

为了惠及广大研究者,每期“视界无限”精选嘉宾观点以快问快答的形式进行分享。

Q1: 如何看待机器学习算法(如模型及优化算法)在处理视觉跟踪问题上的作用?

A1: 多数在模型层面思考跟踪问题 。(左旺孟)

A2: 机器学习算法十分重要,基于learning-based算法仍然十分有效。跟踪领域要求可能不太一样,根据问题特点提出适合的算法,offline training, online finetuning等都是tracking的特色。(鲁继文)

A3: 跟踪本是一个oneshot learning问题。解决问题时,要从tracking问题本身出发,模型更新,特征选取与学习,时序建模等。CV会议一般从问题本身出发,机器学习刊物更看重模型的通用性。(马超)

A4: 机器学习算法作为工具,从不同角度发掘潜力。另外,tracking中的核心问题是online问题,如何建立online 与offline的关系,使online update 更加快速准确非常重要。(彭厚文)

A5: 机器学习作为工具,结合tracking问题设计解决方案。(李成龙)

Q2: 相比目标检测、图像分割等基础视觉问题,视觉目标跟踪目前发展还存在哪些不足之处?

A1: Tracking对其他领域的影响不足。(李成龙)

A2: online 是tracking的本质问题,很多vision问题所不具有。detection在复杂场景中依然需要依赖tracking技术。某些角度看,tracking比detection滞后,但是有本身的特点。(彭厚文)

A3: tracking的evaluation是大问题,现有的metric不太可靠。tracking的框架没有突破detection/verification,沿用tracking-by-detection,没有发展独立的研究问题,本质问题有待突破。(鲁继文)

A4: 对其他学科启发、促进作用有限。如果将tracking作为oneshot learning发展的平台,影响力会更大。虽然oneshot learning无法解决tracking中的所有问题,但如果最好的oneshot learning算法来自于tracking,则会更好。(左旺孟)

A5: detection对领域的贡献的确比较大,tracking相比较为有限。时序连续性,例如motion建模是tracking的重要问题,但目前的方法主要基于appearance缺乏时序建模。忽视了tracking本身的一些问题。对这些问题的研究可以提升tracking领域研究的个性。(马超)

Q3: 目前视觉目标跟踪研究更加注重外观建模而较为忽视时序信息建模,如何看待这一现象?有没有好的时序建模思路?

A1: LSTM在tracking上的应用较为困难,训练需要大量数据,但目前tracking数据集有限。(马超)

A2: 时序建模问题的确很多,反而简单的,相邻帧模型更为有效。LSTM在视频超分辨中反倒有效果,可能和tracking本身的特性有关。(左旺孟)

A3: 能否预测目标外观的变化,这与时序建模可能有很大的关联性。(李成龙)

Q4: 如何看待深度学习(深度特征)对跟踪效果的提升?如何看待当前各种深度学习算法采用的训练数据集不一致的问题?

A1: 当常采用小样本训练时,训练数据的不同会影响对比公平性情况确实存在。(李成龙)。

A2: 对现有方法的改进,应当采用相同的训练数据,否则实验不公平。我会要求在相同数据量下比较,但同时鼓励使用大数据训练,分开进行对比。(彭厚文)

A3: tracking与计算机视觉的推动得益于同一平台,同一设置的实验对比。一定要保证实验的公平性。(鲁继文)

A4: 要重点强调自己的贡献,不要将tracking作为数据、模型复杂度等因素都综合考虑。做研究一定要控制变量考虑问题、验证算法贡献。(左旺孟)

A5: 模型过于复杂可能最终效果不佳,应更多的考虑如何根据跟踪问题本身设计算法。(马超)

Q5: 视觉目标跟踪有哪些新的方向、新的应用?

A1: 多目标跟踪发展空间很大,机器人方面可能会有更多应用。(彭厚文)

A2: 跨模态、多模态数据的跟踪可以进一步研究。(李成龙)

A3: 体育视频、军事、等方面是tracking理想的应用场景。tracking在交通监控中的性能如果可以提升,一定会取得进一步的重视。(鲁继文)

A4: 垂直领域应用可能更有效。对于研究,被其他研究领域应用更为重要。(左旺孟)

A5: 无人驾驶是潜在的应用领域。(马超)

Q6: 视频类别无限,帧间连续性复杂,通用跟踪是不是伪命题?能否开辟分类别、场景跟踪?

A1:与tracking的起源有关,将tracking定义general,则会更加注重motion和appearance。(彭厚文)

A2:限制场景更加合理,但是类别不太好限定,否则和detection难以区分。如果能将某种挑战解决也十分可观。(李成龙)

Q7: 目标与多目标跟踪比较割裂。如何将单目标用于多目标?

A1: 算法角度,多线程的单目标跟踪可用于MOT,但不理想,计算量大。MOT主要解决的问题是instance之间的匹配问题,MOT近年来受到关注,相信未来会有快速发展。(彭厚文)。

Q8: RGBT算法在融合时还是data-based的,能否有先验信息指导?从多模态融合角度发展趋势。

A1:没有想到理想的先验信息。应根据T模态本身的特性出发,设计多模态融合。(李成龙)

Q9: CV领域前景问题。

A1: 学生也忧虑CV前景问题。今年进展有限,与期待有落差。该领域竞争激烈,发展快。只要做的好,一定有出路。选择CV行业一定要是真爱。(鲁继文)

A2: 未来发展可能更加偏实用的、具体的领域。(左旺孟)

A3: 只有工作优秀才能脱颖而出,对大多数专业可以作为实践的方向,锻炼编程等实践内容。(马超)

A4: 感觉CV是很实用的,比较看好CV的发展。(李成龙)

A5: 主要看兴趣,思考问题要长远,结合自身目标。(彭厚文)