张姗姗 南京理工大学


南京理工大学张姗姗教授访谈


2020年11月11日,《CCF-CV专委简报》在线采访了南京理工大学计算机科学与工程学院博士生导师张姗姗教授。下面是采访实录。


您是1987年出生的,非常的年轻,现在就已经是博导、教授,有丰富的科研经历且取得了很多科研成果,能否跟大家分享一下您的快速成长历程,以及您的成长感悟?

我本科、硕士曾就读于同济大学电信学院,硕士期间曾在导师的推荐下前往日本国立情报学研究所学习访问。硕士期间的学习经历,特别是在日本的访学经历,激发了我继续从事科学研究,以及走出国门多看看的强烈愿望,于是硕士毕业后我便前往德国知名学府波恩大学计算机系攻读博士学位。博士毕业后有幸进入德国顶尖的科研机构马普所从事博士后研究。回国后,我曾在学校的支持下前往美国加州大学伯克利分校访问。在多个国家的学习和工作经历使我受益良多,得到了多位德高望重的老师的指导,认识了很多优秀的朋友,我感到自己的各方面的能力都得到很大提高。


我出生于江西的一个小县城,在我上大学之前都没有高速公路,从我们县城沿着盘山公路开车需要五六个小时才能到达省城南昌,2004年考上大学我才第一次走出大山,来到繁华的大上海。来自偏远山区的我特别珍惜这来之不易的受教育的机会,深知这是自己唯一的出路。在后续的学习和工作中,我一直十分努力,不敢懈怠。同时,我觉得自己特别幸运,一路走来得到多位师长和领导的关心、帮助和支持,包括我的硕士导师刘富强教授、博士导师Armin B. Cremers教授、博士后合作导师Bernt Schiele教授以及我目前所在团队的负责人杨健教授。他们为我提供了良好的科研环境,并且不断地鼓励我,帮助我,支持我,使得我能够沉下心来专注地做好自己的科研课题。我非常感谢他们!

在我的科研道路上,我最深切的体会是,作为年轻人,首先要立足于一个小的领域,深耕其中,不甘寂寞,踏实前行。正如,沈向洋老师最近在他的报告中分享的“Before you go broad, go deep.” 从博士以来,我一直从事行人检测方面的研究,至今已有十年之久。其实,在我博士后工作初期,我曾经考虑要换一个课题,可是当时我的导师Bernt Schiele教授鼓励我说,任何一个课题,你起码要研究十年以上才可能成为这方面的专家。在他的鼓励下,我继续深入这方面的研究,并且通过实验分析发现现有的算法在很多困难场景下,检测性能还远远不能满足实际应用的需求。在接下来的几年里,我致力于解决困难场景下的行人检测问题,如遮挡、夜间环境、跨域检测等,取得了一系列新的成果。功夫不负有心人,我在微软学术统计的全球学者近五年排位中,位列行人检测领域第一位。


您目前的这些研究工作中,请问哪一项是您认为最自豪的?能否具体介绍一下?

行人检测是一个传统的研究课题,自深度学习兴起之前就已经被广泛研究。深度学习兴起之后,行人检测依然独立于通用目标检测,受到持续关注,比如今年CVPR投稿系统中将其单列为一个子领域。一方面,行人检测在自动驾驶、视频监控、智能机器人等诸多领域有着极其广泛的应用背景;另一方面,行人作为一种典型的目标类别,有很多区别于其他物体的显著特征,使得我们在设计行人检测算法的时候可以利用很多先验知识来提高精度。


目前我们研发的行人检测算法已经被丰田汽车公司用于无人驾驶实验车上,我们看到基于视觉的行人检测方法在一般理想环境下能够取得不错的检测效果。然而,在一些困难场景下,如遮挡、恶劣天气、夜间等情况下的检测精度还有待提高。


您带领团队参加了一些挑战赛并获得了奖项,如:2018年中国智能车未来挑战赛“前方车辆位置检测”第一名和“跨越险阻2018”陆上无人系统挑战赛环境感知组第二名,能跟大家分享一下参加这些挑战赛的经验、经历和心得么?

近年来,我们在抗遮挡方面做了一系列工作。2017年我们提出了一个新的行人检测数据集CityPersons,该数据集具有较强的多样性和丰富的遮挡实例,我们利用数据驱动的方法提高了现有模型应对遮挡场景的能力。该数据集目前已成为行人检测领域的标准、权威数据集,在领域内被广泛采用。最近两年,我们研究了如何自适应地对人体遮挡模式进行建模,从而提高被遮挡人体特征的辨识度,如卷积通道间注意力机制,图卷积网络信息传递等。但是我们感到仅利用单帧图像处理遮挡问题具有一定的局限性,因为被遮挡部分信息缺失难以得到补偿。未来我们将利用多视角图像对室外人体进行三维重建,并利用全场景理解以及视频帧协同决策等技术借助上下文信息来进一步解决遮挡问题。



除了行人检测,您目前的研究聚焦点还有哪些?在研究方面,您未来的规划是怎样的?

回国工作后,我开始逐渐扩展自己的研究方向。由于我多年来从事行人检测方面的研究,我对图像视频中的人体分析技术十分感兴趣。目前我的研究课题较广泛地涉及到行人检测、行人重识别、行人搜寻、人体语义解析、人体姿态估计等,但我始终坚持“广而不散”的原则,即我们围绕着“以人为中心的视觉感知”这一主题开展研究,所有的研究课题都与人有关。未来随着我们小组规模的逐步扩大,我们将开展更多的与人有关的视觉感知方面的研究。


我们2018年发表在T-PAMI上的工作《Towards Reaching Human Performance in Pedestrian Detection》,是我目前为止最喜欢的一项工作。在这个工作中,我们极大地提高了行人检测的性能,在很多场景下使其接近人体视觉系统所能达到的精度。和以往工作不一样的是,我们提出的新算法是依据误差分析而提出的。首先,我们提出了对行人检测器的误差进行定性-定量层次化分析的方法,并根据定量分析的结论,找到影响性能的关键因素,从而提出有针对性的解决方案。在这个工作中,我们所提出的分析方法被后续工作沿用,同时也在工业界得到推广。此外,在完成这个工作过程中,我深切地体会到从误差源出发寻找解决方案是一种很好的思路,可以让我们在设计算法的过程中少走很多弯路,这对我们后续的其他工作都具有指导意义。


您担任Pattern RecognitionPR)期刊的编委,PAMIIJCVCVPR等多个知名期刊和会议的审稿人,请问您是如何评价学术论文的?您能否对大家投稿这些顶尖期刊及会议论文提供一些建议?

我个人认为,参加比赛是将我们在实验室里研究的算法落地的重要实践机会。理论算法研究通常只在有限的公共数据集上进行测试,而实际场景复杂多变,我们需要具体问题具体分析具体解决,这绝不只是一个简单的工程化的过程,更重要的是,在实际场景中遇到的困难可以帮助我们提炼出新的科学问题,找到新的突破点,做出更多有影响力的工作。



能否介绍下您的团队及您对团队研究生的管理情况?

我们VALSE曾在今年七月份举办过一期《如何写/审AI领域的论文》的专题论坛,当时罗杰波老师和杨明玄(Ming-Hsuan Yang)老师等多位资深学者给大家分享了很多关于撰写论文和评价论文方面的宝贵经验,我也从中受益良多。在我看来,首先,学术论文是研究者之间互相交流的一个重要工具,因此我们有必要重视交流的方法和技巧,我们要站在一个完全不了解自己工作的读者的角度来审视自己的工作,学会用最简洁的语言和形象的图表来传递自己的研究思想;同时,学术论文也是我们作者和自己的研究工作对话的一个窗口。我常常有这样的感受,在初期的实验过程中觉得自己的idea很赞很妙,可是一下笔,总能发现其中的不足之处,于是再改进,这样不断改进和行文的迭代过程能够帮助我们将研究工作做得更加完备。


我的研究小组隶属于杨健教授的团队PCALab,目前我的小组共有7名博士生,6名硕士生,以及若干本科实习生。得益于我们整个PCALab良好的科研氛围,不少硕士生都在二年级的时候转博了,所以目前博士生数量比硕士生还要多。


大家对您研究之外的生活也比较感兴趣,比如您的兴趣爱好之类的,能分享下么?

我按照学生们的研究课题,将所有学生分成三个小组,每个小组每周一次组会,我和学生们一起讨论最近的研究进展。我鼓励学生们提出不同的看法,时常会有激烈的争论,当我听到他们独特的见解时,总是感到很欣慰。同时,我也鼓励同学们跨小组参加组会,通过了解其他课题的研究近况,常常也会对自己的课题有所启发。


科研之余,我们小组也经常组织团建活动,如爬山等。我和学生们年龄差距比较小,他们就像我的弟弟妹妹一样,我们相处起来十分融洽。


如果吐露研究工作者的心声,您最想说的是什么?

我一直是一个热爱生活的人。在研究工作之余,我积极参加户外运动,多多呼吸新鲜空气,不仅心情舒畅,有的时候还会突然有好的idea蹦出来。除此之外,我还爱好瑜伽、舞蹈、阅读和旅行。我在博士期间曾经选修过拉丁舞的课程,回国工作后也定期在学校工会参加形体和舞蹈方面的培训。我想只有保持身心健康,才能更高效地工作。


回国工作四年来,我深切地感受到,我们国家对青年科研工作者的支持力度非常大,为我们创造了良好的科研环境,同时,业界的很多前辈也对我们年轻人非常关心和支持,在此,我深表感谢。我很庆幸自己当年选择回国工作,这几年来,虽然工作辛苦,但我很欣喜地感受到自己一步一个脚印不断进步,希望自己将来在“以人为中心的视觉感知”方面做出更多更好的工作。

责任编委 余烨 赵振兵


   

图片2




南京理工大学计算机学院教授,博士生导师,江苏省“社会安全图像与视频理解”重点实验室副主任。研究方向为计算机视觉,特别关注视频中人体检测和分析。曾于20152月在德国波恩大学获得计算机博士学位,博士论文获大德语区(德瑞奥三国)计算机学会最佳博士论文提名;博士毕业后在德国马普计算机研究所从事为期两年的博士后研究。2018年入选中国科协“青年人才托举工程”、江苏省“双创博士”、微软“铸星学者”计划等。目前以第一/通讯作者身份在CVPRECCVT-PAMIT-IP等顶级国际会议和国际期刊上发表论文四十余篇,谷歌学术引用1900余次;在微软学术统计的全球学者近五年排位中,位列行人检测领域第一位。目前担任模式识别权威期刊Pattern Recognition编委、中国人工智能学会模式识别专委会副秘书长、VALSE资深领域主席。

张姗姗