倪冰冰上海交通大学

上海交通大学倪冰冰教授访谈

2019年1月3日，专委秘书处采访了上海交通大学青年千人倪冰冰教授。下面是采访实录。

倪老师，您好！您在计算机视觉、机器学习与多媒体计算领域做出了很多高水平研究工作，发表了一系列高水平的论文。您能跟我们详细介绍一下您的研究经历，分享一下获得成功的经验，以及您取得这些成就的动力么？

大家好。我是2010年在新加坡国立大学获得博士学位，2015年底回国工作的，目前在上海交通大学电子工程系任教。从博士研究生阶段开始，我的主要研究内容都是围绕智能视频媒体分析这个主题，取得了一些进展。我觉得对于计算机视觉研究来说，想要取得一点成绩，创新性是比较重要的因素。我认为创新有三个层次，第一个层次创新是能够发掘一个前人没有发现的新的有价值的问题，比如过去我们大多数研究者都在图像与视频的识别方面开展工作，而近两年来，图像与视频的生成这个全新的主题变得越来越popular，这个就是好的创新的例子。第二个层次是对已有的问题，提出颠覆性的、非常有效的解决方法，比如深度卷积神经网络的提出一下子把大规模图像识别的问题从较低的准确率提高到超过人的识别水准，对于整个领域起到了极大的推动作用。当然还有第三种创新是对已有的算法、方法做一些增量性的改动，提高性能，这样的创新，对于研究者来说，风险比较小，但是影响力也是有限的。我认为对于一个研究者来说，应该更加关注于前两种的高层次创新。诚然，这需要有更大的探索耐心与毅力，但我相信回报也一定是很厚重的。

您“十年来专注智能视频分析研究”，能跟大家分析一下这方面的研究难点所在，以及近几年在这方面所存在的市场空间么？

我从博士阶段开始，主要关注的研究方向就是视频内容的智能分析。主要是对图像视频中的人、车、物的静态属性（例如人脸、物体检测定位、人脸识别、物体细粒度标签识别、人群密度估计等），以及动态属性（个体行为识别，群体互动行为识别等）进行智能分析。视频理解有很多挑战。首先因为摄像机角度、复杂背景光照、复杂物体运动等原因，我们在识别过程中会遇到目标尺度变化大，目标的外观变化大等问题，因此如何提取、构建具有较强分辨力的、又能兼容目标尺度、外观等变化的统一视觉表征，是本领域的最重要的难点。第二，因为视频是运动变化的，因此如何对视频内的各种目标进行跨时间空间的关联，也是比较关键，在很多大型视频监控问题上，得到同一目标的时空路径，对于可能发生的事件推理，是相当关键的。第三是目前视频理解的困难之一在于存在有标注的数据量还是比较少，而视频内容的变化又是巨大的，使得很多有监督模型的训练比较困难，所以很多视频理解的算法，特别是复杂的行为识别算法，目前工业界还没有广泛的落地应用。最后是计算的问题，因为视频数据体量很大，目前通用的深度学习模型也比较庞大，如何压缩这些模型，使得效率与精度兼备，这也是目前以及将来很长一段时间在视频领域需要解决的问题。

除了这些传统的智能视频分析的研究，目前我的团队更加关注与聚焦于互动创意视频媒体领域。近期我们在智能的视频生成方面做了一系列的工作，比如基于空间约束的人物运动视频生成、人脸的实时3D表情迁移和从sketch到动画的自动生成等。我们认为新媒体的重大需求就是内容的智能产生，以及内容的个性化产生，而目前人工智能在视频方向的发展，恰恰能够满足这两个方面的需求。我们可以看到未来有更多的媒体内容是计算机程序自动编辑产生的，而且对于不能的观众，它能根据观众的喜好产生不同的内容。我们团队最近的一个非常有趣的工作是根据NBA视频自动产生体育解说，目前效果非常好，几乎到了以假乱真的地步，在很多国际主流科技媒体上，也被广泛报道。当然，这些技术的难点在于生成内容的解空间非常巨大，因此如何进行有效的空间约束和空间分解，可能是提高内容生成质量的关键所在，我们也在这个方向进行努力探索。

您多次参加行为识别、检测竞赛，并获得了2012年国际模式识别旗舰会议ICPR行为识别竞赛第一名、2014年国际计算机视觉旗舰会议ECCV行为识别竞赛第二名、2015年THUMOS 2015行为检测国际竞赛第一名等，能跟大家分享一下您参加这些竞赛的经历和经验么？

我觉得参加竞赛，与学术研究有一定的相通点，也有很大的不同。比如相通点是都是要对于算法进行一定的创新设计，目前深度学习的时代，很多开源的工具、算法，对于竞赛的参赛者来说，起点和基础都是类似的，这个时候，如果能对模型进行一定的创新，更加能够适应场景的问题，最后一定会脱颖而出。异同点在于对于竞赛来说，最后的工程细节也非常重要，比如你用模型融合的方法提高性能，那么如何融合，如何给合适的融合系数，在何阶段进行模型融合，是否应该对于子问题进行建模，数据应该如何前处理以及后处理，这些细节都能够极大地影响到最后的成绩。对于参赛者来说，事先如何规划好团队的实验方案，如何在最短最可控的时间内进行尽可能多的模型以及方法尝试，都是至关重要的。

您于2010-2015年在美国伊利诺伊大学香槟分校新加坡高等研究院担任研究科学家，请问能介绍一下您这段时间的工作经历么？您承担的主要工作是什么，有哪些经历是您难忘的？在这段期间的工作经历中，最大的获益是什么呢？

在高等研究院的6年研究经历对我来说是非常重要的。它是我博士毕业后进行独立科研的重要时期。在这期间，我的很多科研能力得到了训练，例如独立进行项目申请书的撰写，独立进行研究生研究课题的制定与指导，独立进行科研项目的进度管理与团队管理。我在高等研究院时期的研究方向主要是跨模态的视频理解，主要是融合可见光、深度、红外等视频模态进行目标识别与行为识别。当时我们研究组的主管教授是来自香槟分校的著名信息论学者PIERRE MOULIN教授，几年的共事，他影响我最深的是他对于研究工作的每处细节都是事必躬亲，我们可以时常看到他在办公室废寝忘食地进行公式推导，上课教案准备，以及帮助学生一字一句地进行科研论文的修改（实际上他当时已经是UIUC的荣誉教授，是国际信息论的权威）。许多年后我自己在带团队的时候，也努力做到在科研的每个阶段一定要和学生深入互动，不管是idea准备、实验设计以及论文撰写，都尽量和学生一起，做到最严谨、最完美的状态。科研无小事，只有对细节的全面把握，才能做出最第一流的研究成果。这几年，当然最难忘的还有第一次指导自己的研究生发表他的第一篇顶会论文，第一次带领团队夺得国际算法大赛冠军。作为导师，为学生的科研事业打开第一扇窗户，那是最有成就感的。

在美国伊利诺伊大学香槟分校新加坡高等研究院担任研究科学家6年之后，您为什么选择返回祖国高校工作呢？又是什么机缘让您去了上海交通大学？

回国的原因是几方面的，一方面其实是考虑个人的学术生涯的发展，国内高校在人工智能、计算机视觉方面的发展如火如荼，有一定知名度年轻学者比较容易在国内高校快速建立自己的团队，可以加速产生更多更有影响力的学术成果。这样的大环境，国外是没有的。另外一方面，我本科就是毕业于上海交通大学电子工程系，当时我们学院在计算机视觉方面，科研实力相对比较薄弱，我们学院的领导很希望加强这方面的学科以及科研建设，对我回国任教提供了强有力的帮助与支持，使我深受感动，所以更加坚定了我回国任教，建立自己的科研团队，为母校做贡献的信心。

能分析一下上海交通大学的研究氛围，和您之前在美国、新加坡等地研究氛围的异同么？

我个人感觉中国、美国、新加坡的研究氛围还是有一定的区别的，或者说各自有各自的偏重与特色。比如我在美国谷歌公司时候，虽然我们是公司，应该是以盈利为导向的，但是我们可以很明显感受到，谷歌公司内部是很鼓励天马行空般的科学研究的，特别是在算法研究部门，一些很好的、很超前的科研想法，只要是跟产品线有一定的关联度，公司都会非常支持你去创新。比如我当时在谷歌的YOUTUBE视频分析部门，提出了几个当时非常新颖的研究idea，例如通过视频内容推荐相应的背景音乐，通过海量的学习自动产生个性化的、智能合成的视频和音乐等，得到了团队领导的大力支持，有几个项目和团队同事一起努力也最终获得了YOUTUBE产品的上线应用，还是非常有成就感的。谷歌也支持工程师们发表高水平学术论文，参加国际顶级会议。

新加坡的研究所或者高校，比较偏重研究和产业结合。比如我们高等研究院，从管理层，到每个课题组的PI，都非常鼓励我们走出去和企业交流，从中挖掘一些可以产业落地的研究想法。我们当时课题组，与新加坡的各大医院广泛合作，将视频行为理解的技术运用到医院的日常流程管理、老年病人复健训练、以及病人防跌倒的实际项目中。

回国以后我感觉到高校的研究氛围是非常自由和友好的，可以根据自己的科研兴趣，制定相应的科研方向，如果团队足够大的话，也可以同时探索几个方向。当然，很多时候我们也关注国家的重大需求以及产业的需求，比如我们团队目前主要的研究力量放在互动创意新媒体的方向，和国内好几个新媒体的企业（短视频、直播）保持着非常良好的合作关系。

能介绍一下您现在的研究团队，以及您如何管理这个研究团队的么？

我目前在上交大的团队大概有40人的规模，包括博士生、硕士生和本科生。团队规模算是比较大的，我们的日常科研进展管理通常采用科研小组的形式，即每一位资深的博士生负责一个方向，每个方向会有若干硕士生和提前进组的本科实习生，科研进展讨论会也基于小组的形式进行，至少保证每位每周一次与负责博士以及我进行进展讨论。另外我们每周会有一次论文学习分享会，面向所有同学，主要是将近期的顶会顶刊论文进行分享汇报与讨论，在讨论过程中逐渐形成新的观点与创新点。目前我们几个科研小组分别是互动创意新媒体内容生成/智能艺术、深度学习的可解释性、智能医疗影像等。我感觉，对于一个团队的形成与磨合，单单靠这些routine式的组织手段通常也是不够的。关键还是要让学生不断地感受到科研给他们带来的成就感，比如能发表顶级的论文，能经常有比赛的获奖，这些成果也会无形中更加坚定同学的科研信念，同时每位同学都觉得科研有奔头，无形中也增加了团队的凝聚力与战斗力。当然我们团队是很友爱的团队，老师学生也经常一起玩，比如一起踢球，一起观星，一起郊游、聚餐，总之活动非常丰富。

从微信上看，您有一个非常可爱的女儿。对于研究工作者，事业和家庭都要兼顾是有一定难度的，能否跟大家介绍一下您是如何处理事业和家庭之间关系的？

科研工作，虽然工作时间上比较灵活。但是几乎也是等同于每天都是上班状态。特别是有的时候可能会连续几天出差。所以家里还是太太照顾的比较多，作为丈夫和父亲，还是比较愧疚的。最近女儿在准备幼升小的考试，我也尽量抽出时间对女儿进行一些辅导。其实从与女儿的互动中，能够感受到巨大的快乐，自己在也不断成长。特别希望未来有更多的时间和家人一起共享。

我爱人对我的工作是非常支持的，她本人也是人工智能的超级粉丝。这里可以透露一下，她目前也在从事人工智能的教育事业（与几位志同道合的朋友创办了AI300学院这个在线人工智能教育平台）。目前在人工智能职业教育，人工智能高中教育，以及少儿人工智能启蒙教育方面已经初具规模。

倪冰冰

上海交通大学电子系教授，博士生导师。2010-2015年于美国伊利诺伊大学香槟分校新加坡高等研究院(University of Illinois at Urbana-Champaign, Advanced Digital Science Center Singapore)担任研究科学家。2005年在上海交通大学电子工程系获学士学位；2011年在新加坡国立大学 (National University of Singapore) 电气与计算机工程系获博士学位。博士期间，先后在微软亚洲研究院和谷歌公司美国总部工作，担任算法研究员。主要研究方向为计算机视觉、机器学习与多媒体计算，专长人脸识别，视频理解，媒体生成，智能医疗，以及智能艺术。

发表论文100余篇，其中IEEE T-PAMI、IJCV等SCI期刊源论文30余篇，包括IEEE/ACM汇刊论文20余篇。CVPR、ICCV、NIPS等中国计算机学会推荐A类会议论文40余篇。所发表论文的Google Scholar引用次数为3000余次，H-因子28。获得美国专利授权2项。获ICPR2012-HARL、CVPR2015-THUMOS行为检测竞赛第一名、ECCV2014-ChaLearn行为识别竞赛第二名。2011年度泛太平洋多媒体会议（PCM2011）最佳论文奖。2017阿里巴巴天池国际AI医疗竞赛第一名（1/2887）。2018年BOT国际智能零售算法大赛第一名（1/480）。十年来专注智能视频分析研究，近两年来进一步聚焦跨时空复杂事件识别、视频精细语义识别、视频预测生成研究方向，在视频行为分析的精细性、跨时空性、可预测性方面，率先提出一系列解决方案，突破了传统算法语义识别粒度粗、特征时空关联度差的瓶颈。倪博士被IBM公司T. J. Watson研发总部评选为2010年全球多媒体与信号处理领域十大新锐之一 (Emerging Leaders in Multimedia and Signal Processing)。担任国际计算机视觉顶级会议ICCV2019领域主席。

（责任编辑：余烨黄岩张汗灵）

委员动态

倪冰冰上海交通大学

上海交通大学倪冰冰教授访谈

计算机视觉专委会