中山大学林倞教授访谈录

 

 

2017年8月25日,CCF-CV专委会简报委员风采栏目编委采访了中山大学林倞教授。下面是采访实录。

林老师,您在视觉计算与智能感知方面取得了突出的成果,目前,您已获得国家“优青”等多项学术荣誉,研究成果也在工业界有所应用,能否跟大家分享一下您的科研经历、获得成功的经验,以及您取得这些成就的动力呢?

这其实是个比较大的话题,我相信每个学者都有各自的答案。首先说说动力方面,我觉得自己的动力来自于兴趣和好奇心,同时也相信自己研究的人工智能、计算机视觉、机器学习这些技术能推动各个行业的进步,甚至改变世界,所以也有一些理想主义在里面。

第二点,在求学过程中受导师们影响很多(包括北京理工大学的王涌天教授和美国UCLA的朱松纯教授等),他们给我树立了追求科研和学术的榜样,培养了我的兴趣和理念。我也希望自己成为像他们一样优秀的学者。

第三点,我到中山大学任职后,接触到很多优秀的同学,他们有扎实的基础,强烈的进取心。作为老师,我有一种强烈的培养学生的意愿,希望能够把他们引导到科研的道路上,做出比我更好的成就。

第四点,我也希望自己做的学术工作能够进一步与产业应用相结合。随着大数据时代的到来,新一代人工智能技术的兴起,使得学术界和工业界的边界越来越模糊。涌现出不少以AI技术作为产品核心竞争力的企业,这类企业除了能提供大量的数据和计算资源,还有真实的应用环境以及对科研工作的评价标准。在这样的背景下,我选择加入商汤科技,既是机遇,也是新的挑战。

科研经验方面,也是一个很大的话题,从我的角度来做一个简单探讨吧。首先,要学会坚持,不必过于计较眼前得失。这几年,人工智能相关领域的研究很热闹,每隔一段时间都有新的概念或者方法提出来。我觉得盲目追赶潮流和热点不值得鼓励。我时常建议我的研究生们:“与其做得快,不如做得扎实一些、深刻一些”。举例来说,我自己坚持做的一个方向就是统计语法模型和推理计算,对图像视频内容进行层次化语义解析,早期受限于特征表达能力和标注数据不足,进展不算快。到了2013年深度学习和神经网络成为研究热点,我也是更多地去思考这种数据驱动的深度学习方法与统计语法模型的内在关联,并设计了一些互相结合的方法。基于这样的研究思路,也取得了一些成果例如人物服饰精细化解析、场景层次解析、3D人体位姿解析,都作为大会口头报告论文发表在ICCV2015、CVPR2016、CVPR2017这三次会议上。

我的第二个经验就是要深入细节,坚持在第一线做科研。现在大家都很忙,尤其是高校教授,有很多人才竞聘、考核、项目申请的压力,这种情况下很多教授容易浮在表面上,没有时间看经典文献和深入细节讨论分析。在这方面,我自己认为坚持的还算不错,包括与学生或者同事们讨论具体实现、实验的设计等。

第三个经验是保持open mind,尤其是注意与相近领域甚至不同领域的学者的广泛交流与合作。

此外,我还建议学术界的教授、研究员们要发挥自己的优势,有条件的话,做一些前沿性的新问题。感觉正常的状态应该是学术界在引导工业界前进。

说起科研经历,也有一些小的波折,其实我在读博士之前根本没想过今后要从事学术科研,曾经一心想做产业应用。在本科大四阶段, 我还曾参与过创业,与朋友们共同创办过小公司,做一些互联网和手机增值业务的项目。开始还有些收益,但由于缺乏核心技术突破和积累,维持的非常艰难。于是我就思考,是不是该更深入地去钻研一些技术。

当时正好有机会保送研究生,而且有幸遇到了我的导师王涌天教授,他给我提供了很好的科研平台,我从增强现实、三维视觉方向开始做,在老师指导下做了一个户外环境注册定位算法。这个过程极大地激发了我的兴趣,但是也很难继续深入,主要是我当时缺乏计算机视觉的理论基础,遇到问题无法分析解决。那时我曾想放弃做科研,准备开始找工作或者实习机会,没想到又有了新的转折点。2005年的一个会议上,我有幸认识了朱松纯老师,被他的渊博知识和学术情怀所吸引(其实见到他之前曾查阅过他的论文,但是完全没看懂)。当朱老师邀请我去他在湖北莲花山新创办的研究院进行访问学习时,我丝毫没有犹豫就答应了。在莲花山研究院的访问以及后来在美国UCLA的学习工作经历,对我来说是一个脱胎换骨的变化过程,尤其是系统性地学习和掌握了计算机视觉、模式识别、统计分析等理论知识和方法。从2006年开始,我在贝叶斯概率框架下研究基于马尔科夫链蒙特卡洛原理的聚类采样算法,应用于图匹配、多目标轨迹分析等任务。此外,还完成了一个基于概率与或图的物体识别框架,在当时的几个公开数据集上取得领先性能。在UCLA做博后期间,又找到了一些很有意思的方向,例如把图像视频解析的思想引入视频非真实感绘制,后来还获得了NPAR的最佳论文Runner-up奖;与同事合作了第一个从图像解析到文本描述生成的工作,并被MIT的Technology Review所报道。

2010年初,综合考虑工作环境和家庭的原因,我选择了到中山大学工作。刚回国时,除了上课外,我还在学校里办了一个兴趣班,吸收大三的学生(我当时正给他们上课)参与,我跟大家讲一些前沿的研究,共同学习提高。在中山大学工作最令我高兴的事就是培养了一批优秀的同学。例如,我的第一个博士生梁小丹(目前在CMU的Eric Xing教授课题组做博后),在博士期间就取得了不少创新性很强的工作,并且在毕业后还持续有新的突破,非常令我骄傲。

后来几年经历了中山大学的院系调整,我自己的研究方向也做了一些拓展,主要是与机器学习、大数据技术进行融合交叉,也遇到了一些志同道合的朋友同事,共同建设科研团队。

您当时是怎么决定想要加入商汤的?

因为商汤对我有很强的吸引力。2015年1月我受邀去香港中文大学作学术报告,之后与汤晓鸥老师聊了一个下午,通过深入交流,我对汤老师的理念非常认同。汤老师希望能做出一个坚持原创技术的企业,通过技术突破来创造蓝海市场,驱动产业发展,并且与合作伙伴共建产业生态。这个想法在当时看来非常大胆且前卫,我当时其实也不完全信服。不过我还是同意暂时以技术顾问的身份加入商汤,提供技术支持,共享一些研究成果。从2015年开始,随着合作的深入,我也逐步对商汤的理念以及快速发展更加认同。此外,我也渴望将自己的科研能力和应用场景相结合,产生更大的一些突破,不仅是在学术上,更多在产业界和应用上。我也有很强的意愿去做一些具有挑战的尝试。所以2016年底开始,我就以执行研发总监的身份在商汤负责技术研发、产品化等一系列工作。商汤在这一年的发展非常快,我很庆幸自己是这个变化和发展的亲历者,而不是一个旁观者。也很高兴,我能够在这个过程中贡献了自己的力量。

您觉得加入商汤之后,对您原本作为教授的工作有什么影响或者冲突么?

肯定是对我原来的计划有一些调整和改变。我首先还是要完成学校的教学和科研任务,也会花很多精力来指导学生。庆幸的是,商汤有很好的科研平台,包括充分的资源,真实并具有挑战性的应用环境,对我的研究工作促进很大,并使我在一些问题和技术上的视野更加开阔。当然了,在个人发展方面肯定会做一些取舍,我希望将来能够专注于应用性强、具有产业前景的研究工作。我也很愿意推动商汤与学术界同行学者的交流和互动。

林老师,您一向特别注重科研成果的转化,可否跟大家介绍一下您在科研成果应用和转化方面的经历和经验?您觉得高校老师应该怎样把应用成果转化做好?

我觉得这是一个非常好的问题,因为在我们国家快速发展的背景下,急需科技的创新、成果的转化。传统成果的转化以委托课题为主,企业从它的业务系统里把这些课题剥离出来,委托给高校老师去开发,开发完后把源代码或者系统移交给企业,这是一种很有效的方式。但现在更多的是教授、科研人员深入企业去做一些指导、交流互动。这种模式以前更多发生在美国。美国工业界和学术界的边界是很模糊的,很多著名教授在暑期或者学术休假期间都会去大公司进行访问,把自己的技能、知识、观点带给企业的技术团队。我认为这种方式在中国也将逐步成为主流。首先,现在成果的转化方式跟以前不太一样。单独提取出难题给高校教授来做,可能困难较大,很多技术往往需要科学家与工程团队密切协作才能完善。第二,企业在发展中,往往缺乏一些具有丰富研究经验的带头人,在应用环境下攻关技术难题。此外,就是我说过的数据、计算资源的问题。

林老师,加入商汤之后,您觉得对您的研究方向会不会有什么影响?您是否会考虑开展一些新的方向?

从我的角度来说,商汤带给我的东西很多,最重要的一点就是研究方向和研究思路的调整。商汤不是一个保守的公司,它做了很多大胆的尝试,比如说无人车、新一代的深度学习芯片,在这里能够做一些在学校里没有资源,无法开展的一些研究方向,可以去尝试一些更前沿、更新的研究,这个对我来说是非常重要的。

加入商汤让我有更多机会去接触一些实际的更真实的问题,因为研究很多时候依赖于假设,而这些假设并非真实存在的。举个例子,在学术界,工作的标准是能不能在一些公开测试集上取得好的效果。到了产品级别的技术就完全不一样了。比如说做人脸识别,在真实情况下会碰到各种各样的数据,来自监控摄像头的数据、来自身份证照片的数据和社交网络上的数据,怎么把这些多源、多模态、具有噪声的数据用好,并持续提升模型性能,是非常具有挑战性的。我团队中的研究员告诉我,很多学术界里面做出来看起来很好的方法,直接应用起来效果并不好。因此这样的过程会促进一些新的研究工作。

林老师,您是中山大学人机物智能融合实验室的主任,能否向大家介绍一下这个实验室?您当时成立这个实验室的使命是什么?您是如何管理这个团队的呢?

我和成慧、王青两位老师,以及几位研究员一起,成立了这样的一个实验室,它并不是官方的实验室,更像是研究组。我们希望去研究人工智能下面的一些核心问题,比如说感知计算、智能学习、自主机器人、大数据分析等,并且将这些问题作为整体来考虑。实验室的王青副教授,很早在人机交互、软件工程方面有很重要的突破,2010年获得了顶级会议SIG CHI的最佳论文奖提名,成慧副教授在机器人控制和感知、路径规划方面有很多的成果。我们当时凑在一起,纯粹是兴趣驱动,看看能不能形成互补,做一些有意思的研究工作。实验室的名字反映了我们的愿景——将AI拓展到包含人类社会(人)、信息空间(机)、物理世界(物)的三元世界。

从管理上说,我们是一个既松散、又紧密的团队。松散指实验室的教授、研究员都有自己研究的自由度,有各自的想法来进行碰撞。我们会有一些定期的交流来把握一些主要方向,围绕项目需求或者兴趣目标来设立一些共同课题。紧密指我们在培养学生、科研经费、科研设备的使用上是一体化的,大家共享资源,我更像一个协调人和主持者的角色。

请问林老师对自己的学生是怎么要求的?又是怎样来选拔学生的呢?能否跟大家分享一下您在管理学生方面的心得?

我选学生,首先要求学生要有很强的意愿和兴趣去从事科研工作。第二,他要有很端正的科研态度,能够踏实工作,能够坦诚面对自己的问题、直视自己的缺点。我也希望学生能够逐渐形成自己的想法,具有批判精神。中山大学校训“博学、审问、慎思、明辨、笃行”,其实从某种意义上说,就是我对学生的要求。

具体来说,我对学生的编程实践能力和数学基础要求比较高。我的很多学生都是从上课、本科毕业设计开始,再报读我的硕士、博士生。一个基本原则就是老师与学生要互相了解和认同,我的观点是:“一日为师、终生为友”。

您在美国加州大学洛杉矶分校学习工作过,在香港作过访问学者,请问您对国内高校、香港高校、美国高校的研究氛围、研究环境分别如何评价呢?

首先我觉得所谓的氛围还是来自于实验室的负责人,他直接决定了这个实验室的方向、氛围。在美国时,我导师朱松纯教授非常执着于学术,是一个有自己思想体系的学者,也有理想和情怀,我受他的启发非常多。他的实验室能坚持自己的方向,做自己的特色研究,不被所谓的热点、热潮所影响。这是非常值得国内高校的一些实验室学习的。

香港的学术氛围也很好,我曾在香港理工大学张磊教授研究组访问,他们的一个特色就是能够把工作做得深入浅出,能让其他同行广泛理解接受,他们的很多工作都把源代码公布给了大家参考。这一点也很值得大家学习。

国内也有很多优秀的实验室,能够达到国际水平,在某些研究方面比欧美国家做得还要好,这是非常值得高兴和骄傲的。不过还是要清醒认识到,相比于欧美发达国家,我们在技术和人才方面的积累还不够,整体上还有较大的差距。例如,目前各个顶级学术会议,来自国内研究组的论文很多,但是受邀做大会报告的学者大部分还是来自于欧美的研究组或者大公司。

此外,需要长时间投入、不容易马上应用的一些研究在中国难以得到支持。欧美由于资源更加充足,他们的科研体制能够保护学者去做一些不受关注,前瞻性很强的研究,我觉得这点应该向他们学习。

目前大家了解的都是工作状态的林老师,请问可否跟大家分享一下您的业余生活,以及您如何协调工作和家庭的呢?

我非常感谢家人的支持!我平时工作忙也时常出差,每当“稚子牵衣问,归来何太迟”,总觉得亏欠家人太多。我觉得每一个科研人员都应该感谢、珍惜他们的家人。

这两年开始我比较注意锻炼身体,每天都会坚持跑步,或者去健身房锻炼,有条件还会游泳。高强度的工作更需要保持身体机能的状态良好。

此外,业余时间我喜欢看书,尤其是一些人文历史方面的书籍,我出差时都会随身带阅读器Kindle。我也很喜欢旅游,比较存粹的游览观光,不是出差开会。我觉得丰富的生活是对科研的一个调剂,更有利于启发创造性的思考。

林倞,中山大学数据科学与计算机学院教授,博士生导师,商汤科技执行研发总监,国家优秀青年基金获得者,教育部超算工程软件工程研究中心副主任,IET Fellow。先后在美国加州大学洛杉矶分校、香港中文大学等机构工作或访问研究。长期从事面向视觉大数据的语义分析与智能学习相关领域的研究,并且在商汤科技的一系列产品中应用落地。迄今在CCF-A类期刊与会议上发表论文70余篇,包括在PAMI/IJCV期刊发表论文12篇,在CVPR/ICCV/NIPS/Multimedia发表论文40余篇,2篇论文成为ESI高被引论文。获得NPAR 2010 最佳论文奖, 2012 Google Faculty Award, 2017年度 World’s FIRST 10K Best Paper Diamond Award by IEEE ICME, 2014 Hong Kong Scholars Award,率队获得2016 英特尔杯全国并行应用挑战赛金奖。目前担任IEEE Trans. Human-Machine Systems等多个著名学术期刊的编委 (AE)。

(责任编辑:余烨 韩爱丽)

委员好消息

  • 2017年7月17日,ImageNet公布了ILSVRC2017(ImageNet Large Scale Visual Recognition Challenge)比赛结果。该赛设有目标检测、目标定位和视频目标检测三大类任务。CCF-CV专委会常委、南京信息工程大学刘青山教授率领的BDAT团队夺得目标检测任务桂冠,并包揽了用提供的训练数据进行目标检测的前3名以及用额外训练数据进行目标检测的前2名。CCF-CV专委会委员、公安部三所梅林研究员带领的Trimps-Soushen团队在目标定位任务中斩获佳绩,在仅使用标准数据的情况下,分别获得按定位错误率和分类错误率两个排行榜的第二名。自2010年以来,ILSVRC每年由ImageNet 举办一次,2017年是最后一届,以后将由Kaggle主办。
  • 2017年7月18日,65位CCF专业会员晋升为高级会员,其中包含CCF-CV专委会7位委员:中国科学院自动化研究所何晖光、北京航空航天大学李甲、北京邮电大学马占宇、西北工业大学王琦、同济大学张林、中国科学院信息工程研究所张晓宇、中国科学院自动化研究所张兆翔
  • 2017年7月19日,央视10套《走近科学》栏目播出了CCF-CV委员、清华大学马惠敏副教授历时十年的研究成果“基于图像认知的心理测评与干预技术”。
  • 2017年7月21日,CCF-CV专委会委员、复旦大学姜育刚教授与腾讯AI Lab合作的团队获得2017 iMaterialist Challenge亚军。该赛事是CVPR 2017中FGVC^4 (4th Fine-grainedVisual Categorization)专题研讨会的一部分,由Google主办,主要任务是完成产品图像细粒度属性识别。
  • 2017年7月26日,CCF-CV专委会常委、南京信息工程大学刘青山教授带领的团队在CVPR的Faces “in the wild”竞赛中获面部特征点定位算法第一名。
  • 2017年7月28日,CCF-CV专委会主任、中科院自动化所谭铁牛院士当选CVPR 2021大会主席,CCF-CV专委会副秘书长、上海科技大学虞晶怡教授当选程序主席。
  • 2017年8月4日,国家自然科学基金委公布了2017年度国家杰出青年科学基金建议资助项目申请人名单,建议资助的国家杰青共有200人,CCF-CV专委会委员、大连理工大学卢湖川教授入选。
  • 2017年8月5日,CCF-CV委员、上海交通大学林巍峣副教授团队和中兴通讯的合作提出的一种基于超平面匹配的一体化多目标检测与跟踪算法在 MOT (Multiple Object Tracking) Challenge 测评中取得第一名的佳绩。MOT Challenge 是国际多目标跟踪领域最权威的测评平台,由阿德莱德大学、苏黎世联邦理工学院以及达姆施塔特工业大学联合创办,旨在评测多行人对象在复杂场景下进行同时检测及跟踪的算法性能,迄今为止参加测评的机构多达 60 多支。
  • 2017年8月17日,2017年国家优秀青年科学基金获得者名单出炉,共399个项目获得资助立项,直接费用资助强度为130万元/项。CCF-CV专委会委员、华南理工大学余志文教授和中科院沈阳自动化所丛杨研究员获得资助。

(责任编辑:刘海波 余志文)