盘算机视觉华人史:权龙与他的学生们-香港期货开户
1
群星闪灼时
1988 年的冬天,一辆火车从法国出发、开往卢森堡。
火车上有一行四人,来自法国南锡,他们神采飞扬,兴致勃勃地讨论着即将最先的旅程。从南锡到到卢森堡,他们将在卢森堡乘坐飞机,飞往美国佛罗里达加入第二届国际盘算机视觉大会 ICCV。
他们中,有*一位来自中国的东方面貌,心里尤为激动——这是他*次去美国,也是他*次加入国际上的*学术集会,有时机与来自天下各地的偕行交流探讨。
这位意气风发的青年,就是厥后中国盘算机视觉大师、香港科技大学盘算机视觉实验室的开拓者——权龙。
那一年,权龙 24 岁。
与权龙一同出发的,另有他的博士导师 Roger Mohr、两位研究员 Karl Tombre 与 Gerald Masini。
深度学习浪潮兴起后,华人科学家逐渐成为盘算机视觉三大顶会(ICCV、CVPR、ECCV)的参会主力,揭晓了大量的科研功效,并摘得各大主要奖项。但在上世纪 80 年月,ICCV 大会现场的华人面貌寥若晨星,直到 1988 年法国留学生权龙打破下场势。
1988 年,在法国国立洛林理工学院(INPL)、国家科学研究中央(CNRS)和国家信息与自动化研究所(INRIA)的配合实验室攻读盘算机博士的中国学生权龙,在导师 Roger Mohr 的指导下,写了一篇从几何约束研究室内场景图像匹配的论文。
论文被刚刚降生的 ICCV 吸收,成为了实验室的*篇视觉顶会论文,也标志着华人学者在这个视觉集会上的首次亮相。
1987 年*届 ICCV 在英国伦敦确立,权龙的导师 Roger Mohr 加入了这个里程碑的集会,从集会现场带回来*一本 Proceeding 集会论文集。那时参会职员的「传统」就是必须带一本 Proceeding 回家去读。权龙对这本「孤本」异常珍惜,仔细阅读,读完后写了两篇文章,其中一篇在实验室内部反馈很好,果不其然中了第二届 ICCV。
论文地址:
1988 年的美国之行,为了让人人不负此行,加入 ICCV 之余,Roger Mohr 还联系了各大高校,组织了一次全美着名实验室的游学之旅。权龙*次参会,就感受到了盘算机视觉领域最前沿的学术钻研气氛。
权龙在 1985 年从中国赴法留学。
这个发展于山西太原的中国青年,从小时刻在少年宫美术组最先就一直对图像有着粘稠的兴趣。1980 年,权龙考上了北方交通大学(现北京交通大学)通讯专业结业,成就优异,在1984年结业时考取教育部赴法留学研究生。
那时北方交大的信息科学研究所就群集了一批热爱图像研究的学者,实验室规模重大,在模式识别、图像明白甚至盘算机图形学上均有涉猎。
权龙在本科结业设计时就追随时任所长袁保宗以及刚留法回国的周忠钰,后者带着权龙的本科结业设计,给了权龙不少指导。
权龙出国留学也受到了他哥哥权全的影响。权全在 1978 年以优异成就考入清华大学,几个月后就被教育部派遣到比利时本科留学,极可能是我国改造开放后山西太原出国留学*人。因此,权龙很早对出国留学有所领会,并考取了 1984 年教育部的派遣留学研究生,成为昔时北方交大出国留学的 8 名学生之一。
在法国,权龙结识了更早留法的马颂德(原中科院自动化研究所所长)、张正友(现腾讯首席科学家),三人并称为「法国华人视觉三剑客」,而他们在冥冥之中早有渊源:
在北方交大的最后一年,权龙追随周忠钰做研究,向对方讨教留法履历,后者研究图形学,是 1979 年与马颂德同批赴法的学生之一。
到 1987 年,权龙去法国的第二年,在法国国家信息与自动化研究所(INRIA)实习时又结识了同样通过教育部派遣留学的张正友。张正友先在南锡大学盘算机系读硕,后又去法国巴黎第十一大学读博。
那时欧洲的人工智能已起步,教育蓬勃,降生在法国的 Prolog 作为「古早」人工智能语言正引领人工智能以及第五代盘算机的生长,权龙去法国的*自愿也是研究人工智能。
最早在海内接触「人工智能」这门课时,权龙有些失望,由于课程内容翻来覆去只涉及了一些搜索算法,并没有太多他所期待的「智能」。而到了法国后,法国的研究中央涵盖了语音、图像、逻辑、专家系统等多个研究偏向,同办公室的两个法国同砚甚至已经最先研究为今天的神经网络提供理论基础的「毗邻主义」。
在前沿的研究环境中,权龙马上燃起了研究的热情。由于从小对图像与空间感兴趣,权龙决议研究图像明白,由此踏入了盘算机视觉的大门。
权龙的导师 Roger Mohr 是法国射影几何与盘算机视觉的研究先驱,从到法国的*天起,权龙就随着 Roger Mohr 做研究,一直到 2002 年脱离法国,整整 16 年都是一个团队。1988 年权龙中 ICCV 论文,1989 年(在法国的第四年)就获得了 INPL 博士学位。
1990 年,权龙加入法国国家研究中央,在 INRIA 担任高级研究科学家。Roger Mohr 作为主要成员在 INRIA Grenoble(格勒诺布尔)开拓盘算机视觉小组,权龙成为首创成员,也最先率领自己的学生,并见证了欧洲三维视觉的黄金时代。
1982 年大卫·马尔出书《视觉》一书,从 edge 研究视觉盘算成为行业的主流。到 1990-2000 年,行业内泛起转变,从 edge 转向研究几何问题,即「三维重修」。上世纪 90 年月,欧洲群英荟萃,欧盟有一个大项目(「欧盟研发框架设计」)群集了一批研究稳固量和几何的人才(主要来自 INRIA 、英国牛津大学、比利时鲁汶大学、瑞典*理工学院),成为三维视觉的研究圣地,而欧洲三维视觉的起源地又在法国。
权龙所在的 INRIA 一马当先。1992 年,INRIA 的一位研究员 Olivier Faugeras 揭晓论文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」,试图用数学剖析双目能让人感知到三维的缘故原由。Oliver 提出「七点算法」,即:通过在非标定相机的两张图像中标出 7 个对应点,就可以盘算出获得三维的基础矩阵。这个事情拉开了三维视觉研究的序幕。
三年后、1995 年,权龙揭晓的「六点算法」,又将三维重修向前推进了一大步。
在「六点算法」,权龙探索了三维重修的最小数据需求,获得「六个点、三幅图像」的方式论,不仅为三维重修的基础理论作出卓越孝顺,之后险些所有基于非标定相机的三维重修手艺都受到了这一算法的启发。权龙由此声名大噪,成为三维重修的领武士物。
论文地址:
在九十年月,盘算机视觉领域最主要的成就之一是生长了一种三维视觉几何手艺,即从非标定的图像(uncalibrated images)或运动结构(Structure from Motion)中举行三维重修。只要输入图像存在重叠,就能全自动地皮算出所有相机的位置和偏向,并重修场景的三维点。
图像的三维重修是盘算机视觉、机械人学、摄影丈量学和盘算机图形学的基础,而三维视觉几何的整个系统确立在两视图、三视图和N视图几何这三个基本要素之上。
两视图几何问题,以基础矩阵(fundamental matrix)为特征,在 1992 年由 Olivier Faugeras 和 Richard Hartley 各自自力解决;三视图几何问题则是由权龙在 1994 年揭晓的论文《Invariants of Six Points and Projective Reconstruction from Three Uncalibrated Images》中得以解决。
两视图几何在使用七点算法启动盘算时是基础性的,但它会导致对应关系歧义。与之相比,三视图几何在*性地表征投影结构和消除重修及对应关系歧义方面,既是最小的也是最完整的。
权龙引入的「六点算法」,以封锁形式解决了三视图几何问题,最多提供三个代数解。由于三视图之外没有其他自力的几何关系,三视图几何和两视图几何是多视图几何中唯二的基础几何,因此三视图的六点算法和两视图的七点算法也是图像三维重修中最基础的两个算法。
而由于 N 视图几何本质上是一个代数冗余系统,缺乏通用的代数解决方案,以是只能通过优化方式来解决。1992 年,在 Faugeras 和 Hartley 对两视图几何的代数剖析同时,权龙及其同事创新性地提出了一种优化方式,接纳空间中的规范投影基,首次实现了多视图的投影重修。
这篇《Relative Reconstruction from Multiple Uncalibrated Images》与 Faugeras 和 Hartley 同年在两视图几何方面的里程碑式研究齐名,其基础性孝顺在学术界受到了高度认可。
权龙在三视图与 N 视图这两个要害领域的主要孝顺,使他成为三维盘算机视觉生长的主要推动者之一。在谁人时期,权龙的孝顺不仅限于此,还解决了其他视觉几何领域的诸多问题。
「六点算法」也是权龙与一众早期中国盘算机视觉华人学者结缘的契机。
「六点算法」揭晓后,1995 年,权龙去美国波士顿加入 ICCV,在哈佛 David Mumford 实验室结识了那时读博的朱松纯。
1996 年,权龙在学术休假 (sabatical year)时到卡内基梅隆大学造访 Takeo Kanade,结识了沈向洋。早期盘算机视觉领域的华人很少,中国学者联系慎密,权龙与沈向洋的友谊也一直延续至今,甚至影响了下一代在港科大与 MSRA 的学子,这是后话。
从 1990 到 2000 年,三维视觉在欧洲的研究如火如荼。2001 年,Richard Hartley 和 Andrew Zisserman 出书多视几何理论课本《Multiple View Geometry in Computer Vision》,标志着三维视觉领域的基本理论框架确立。
这十年也是群星闪灼的十年,欧洲视觉圈涌现了一批厥后名声如雷贯耳的学者人物,如 Oliver Faugeras、Richard Hartly、Andrew Zisserman、Luc Van Gool 等等,权龙作为其中少数的东方面貌,也独树一帜。
相比之下,三维重修在北美学术圈并不活跃,相关研究功效萧条,唯有彼时在通用电气公司研发中央的 Richard Hartley 揭晓了一系列异常有影响力的事情。现实上,Richard Hartley与牛津团队联系亲热,由于他在通用电气的老板 Joe Mundy 曾在牛津学术休假,并与其团队互助过。
INRIA Grenoble 多次约请 Richard Hartley 前往实在验室,与权龙他们讨论对三维重修的前沿探索,权龙也辅助Richard 在Grenoble 完成了他的著名八点算法。
直到 1999 年,David Lowe 提出著名的 SIFT 算法。
权龙厥后告诉雷峰网,由于二人都在盘算机视觉中从事感知分组的事情,他从读博最先就读过 David Lowe 的论文,直到现在还会偶然翻阅 David Lowe 的文章,「David Lowe 写的器械都很深刻,他的乐成不是突如其来的。他的功效在许多地方都能直接应用,好比 SIFT,visual features(视觉特征),是为几何而生、为做三维重修界说的。」
在法国,权龙还培育了两位自满学生:*个博士生 Peter Sturm,他在三维重修奇异性(reconstruction singularity)方面做出了孝顺,1998 年在权龙指导下完成的博士论文获得了法国*个 SPECIF 奖(每年只颁给一篇法国盘算机科学博士论文);另一个学生 Maxime Lhuillier,作为准麋集方式(Quasi-dense approach)的开创者,也获得了国际模式识别大会(ICPR)的*学生奖。
与天才偕行、求索三维视觉,充实了权龙的法兰西岁月。
2
港科大视觉*人
2001 年,权龙作了一个主要的人生选择:竣事 16 年「法漂」,回到中国香港。
促使权龙作出这一决议的,是时任香港科技大学盘算机与工程系(CSE)的系主任钱大康。
港科大 CSE 确立于 1991 年,钱大康作为*批教职职员在 1992 年加入。香港回归后,与大陆的联系增强,香港各高校最先招揽有大陆靠山的科学家,香港科技大学(HKUST)新确立的盘算机科学系也正起劲招聘职员,在三维重修领域声名鹊起的权龙也进入了香港高校的视野中。
与权龙险些是同时加入港科大盘算机科学系的另有杨强,二人加入后,第二年另一位华人科学家倪明选担任 CSE 的系主任。权龙厥后向雷峰网回忆,港科大的校向导「都很松手」。
于是,刚到港科大的*年,权龙就带着积累多年的前沿盘算机视觉知识,确立了港科大*个盘算机视觉实验室「 VisGraph」 。「VisGraph」 取「视觉(Vision)」和「图型学(Graphics)」两个寄义,实验室坐落在九龙清水湾港科大教学楼的 4204 房间。
VisGraph 实验室内部
在法国的 16 年,权龙教训出了 Peter Sturm 等三维视觉领域的青年佼佼者。回到港科大后,他险些相当于从零最先,只有 Maxime Lhuillier 跟他来香港。约莫一年后,Maxime 将准麋集方式推进到了谁人时期*的 3D 重修算法。
香港回归后,为了吸引内地学生来港深作育业,1998 年最先,香港各高校最先通过互助、委托内地 10 所高校代招内地生。
很快,权龙加入港科大的*年,就从北京大学招了两名学生:危夷晨与曾钢。
权龙回忆,那时北大向权龙推荐了一批优异的学生,权龙都很浏览,但由于科研经费不多,不敢多招,以是只拿了 2 个名额,便同年招来了危夷晨与曾钢。
危夷晨原设计去美国,最厥后到香港,算得上是*批「吃螃蟹的人」。
危夷晨曾进过实验室实习,也许知道自己不喜欢数据库偏向、而是偏心图形学的课程。到港科大后,钱大康给了危夷晨一份导师名单,危夷晨一看,名单上的偏向基本都是数据库、盘算理论、网络等传统学科,*与图形相关的就是权龙的视觉组,于是就选了权龙,可谓「机缘巧合」。
权龙率领团队的气概是追求小而美,而非建一个规模稀奇大的组,以是权龙一年只招一个博士生。2001 年权龙招了危夷晨与曾钢后,第三个学生就从 2003 年才最先招,2003 年招了谭平,2004 年招了王井东,2005 年招了袁路,2006 年招了方天……
谭平与王井东是通过微软亚洲研究院(MSRA)来到权龙组。前文提到权龙与沈向洋在 CMU 相识、后成为密友,权龙回港科大生长时,沈向洋正在北京 MSRA,谭平与王井东都是通过沈向洋的推荐成为博士生,港科大 VisGraph 实验室与 MSRA 的羁绊也是由此睁开。
谭平是湖南娄底涟源人,15 岁就考上了上海交通大学少年班,本科学的是数学,研究生后才转去人工智能领域,在上海交大的模式识别所学习,导师为杨杰。厥后模式识别所与图像通讯所合并为了「图象处置与模式识别研究所」,杨杰担任所长。
2001年,谭平在上交大听了一场沈向洋的讲座,彻底燃起对盘算机视觉的热情与对 MSRA 的憧憬,就报名去 MSRA 实习。
在 MSRA 实习的四个月里,谭平随着沈向洋研究盘算机视觉,开端确立了对三维视觉研究的基本认知。谭平记得,那时 MSRA 的研究条件和上海较大有很大落差:上网晦气便,没有数码相机、要去图像所排队借,想查最新的 PAMI 论文、但图书馆只有老的杂志,深感内地高校与外洋的条件差距。
谭平以为研究人工智能的*目的是与机械人应用连系,以是他以为盘算机视觉的能力要求不能只停留在二维图像上,而是要有三维的感知能力才气实现机械人的移动、操作物体等,一直对三维视觉的研究很感兴趣。谭平很早读过权龙的六点算法论文,知道权龙曾留法、是那时全天下局限内三维视觉偏向研究功效最精彩的几小我私人之一。
王井东原与危夷晨、曾钢同是 97 级本科,但由于在清华大学自动化系本科结业后选择留校读研,师从导师张长水,以是 2004 年才到香港,比危夷晨等人晚了两、三年。
而比王井东晚一年来权龙组的袁路,也是与王井东险些统一时间在 MSRA 实习的清华学生。袁路对盘算机视觉研究十分痴迷,经常会抱着相机睡觉,权龙常说「研究盘算机视觉就应该学习袁路」。
方天也是沈向洋推荐和配合培育的博士生。方天的本科就读于华南理工大学盘算机系,是一名三维游戏兴趣者,以为「很美、很艺术」。在 MSRA 网络图形组实习时,方天就已经最先研究三维图形学,厥后在沈向洋和王立峰的推荐下来了权龙组读博。
由于「精准招生」,权龙组的学生人数基本维持到四、五个学生左右,团队成员之间的关系十分慎密,又都是来自内地,以是经常聚在一起用饭、讨论学术研究。
那时与权龙学生统一个实验室的另有傅红波。傅红波是危夷晨在北大的师弟,博士导师是权龙的同事戴秋兰,但研究的偏向是图形学,因此与权龙组的互助也许多。傅红波很有亲和力,经常会在饭点走到 4204 的门口叫危夷晨、谭同等人去用饭,气氛很融洽。
除了博士生,权龙团队另有一个格外出众的、来自信陆的硕士生,叫肖健雄,厥后圈内人称「Professor X」、确立了自动驾驶明星公司 AutoX。
肖健雄是潮汕人,本科就读于港科大盘算机系,性格勇敢自动,由于喜欢三维视觉,本科阶段就自己跑去找权龙说想跟他学习三维视觉。由于肖健雄是本科生,一最先权龙没太在意,就让他去实验室找一个师兄互助,肖健雄就找到了谭平、王井东,介入他们的项目,照样本科生时就发了*篇学术论文、而且中了 2007 ICCV oral。
ICCV 2007 在巴西里约热内卢举行,权龙带肖健雄去参会,出发当天,权龙远远就看到肖健雄提了一个橘红色的手提箱走来,给权龙留下了深刻的印象。权龙问他为什么选择颜色这么出众的箱子,肖健雄回覆说是由于这样「easily recognizable(辨识度高)」。
肖健雄脑子伶俐、反映也快。厥后权龙竞选 2011 年 ICCV 大会主席时,竞争猛烈,权龙与澳大利亚的 Richard Hartley 是呼声最高的人选之一,后面由于记票排场杂乱,大会就在竞选集会室开了两个门、划分代表权龙与另一位竞选者,投票者从哪个门出去、就示意选谁,肖健雄做了许多参会者的事情,使权龙以几票之差险胜。
以是 2008 年肖健雄本科结业后,权龙就把他招进了组里读 Mphil。肖健雄的本科与硕士论文都是关于三维重修与街景剖析,硕士时期的功效还影响过谷歌无人车的研究(谷歌团队早期研究无人车是以谷歌街景为基础)。
肖健雄申请去美国读博时,权龙给他写推荐信,原先想写「He is a genius」(影戏《优美心灵》纳什推荐信的典故),厥后委婉点改成了「outstanding」。拥有精彩履历的肖健雄受到美国各大高校的哄抢,最后他选择了麻省理工学院(MIT)。
3
重新发到地球
2012 年后,盘算机视觉的风俗从卷积神经网络识别到视觉天生大模子,但 2012 年之前相当长的一段时间里,三维重修都是视觉研究的焦点问题。此外,盘算机视觉与图形学两个偏向的交织也许多,权龙向导 VisGraph 也不局限在 CV 的圈子里。
与「唯论文数目」的实验室气概差异,权龙从不要修业生追赶论文「殒命线」,也没有划定学生必须揭晓若干篇论文才气结业。他的指导气概随和,给予学生极大的自由度,每小我私人都可以探索自己感兴趣的偏向,以是危夷晨、谭同等人都以为,在 4204 实验室很有平安感与归属感。
一群优异的学生聚在一起,相互之间也很容易形成竞相向上的拉力。谭平回忆,读博时实验室的师兄弟经常一起泡实验室,权龙天天都市来实验室与人人交流,权龙随时来、学生随时在。权龙会过问手艺细节、与学生深入探讨问题,治学严谨、热情,经常熏染实验室的同砚。
国产新药资产,在海外被折价大甩卖
谭平记得,权龙在课上做过一个实验,让谭平拿着两支铅笔、笔尖与笔尖触碰。这个历程中,若是谭平蒙上一只眼睛,只有一只眼睛校对,一最先笔尖与笔尖没对齐,就会发现之后再怎么对也对不上。权龙通过一个简朴的实验,就让学生体会到,人是靠双目才有深度、立体的感受,才气使笔尖与笔尖碰上。
那时整个实验室都被权龙点燃,对三维重修的研究热情高涨。
三维视觉的生长约莫经由五个阶段:首先是理论阶段,方式是凭证单张图片的光影转变将物体的三维形状恢复出来(即「shape from shading」,开创学者是 Bruce Horn);其次是双目或多目阶段,通过多相机从差异角度拍摄构建三维形状,代表有法国 INRIA,代表有 Richard Hartley、权龙等;接着是视觉 SLAM(指相机在运动时通过算法求出相机的三维姿态);最后是与图形学交织连系,以及挑战动态场景(代表是 XR)。
权龙先前的代表作是六点算法,2000 年后三维重修领域泛起了许多新的问题,如希罕重修。希罕重修是指从一组希罕的三维点或特征中恢复进场景的三维结构,一样平常会先去求解相机位置,然后获得一个示意场景中要害特征点的希罕点云,其中视觉 SLAM 是一个要害解法。
简朴来说,视觉 SLAM 是一项用相机来网络数据点、并确立舆图的手艺,现已被普遍运用于无人机、扫地机械人以及苹果的「当红炸子鸡」Vision Pro 中。但在千禧年头始,这个偏向并不受重视,研究者也寥若晨星,权龙团队是全球最早研究这一偏向的团队之一。
作为最早吃螃蟹的人,彼时团队投稿 Visual SLAM 的论文经常被拒,直到 2007 年以后才最先有大量事情泛起。谭平回忆,在自己进入实验室的很长一段时间里,权龙与师兄弟们都是在痛苦地「屡败屡战」。
早期物体的三维建模往往是通过在 3D Max 或 CAD 软件中手动拖拽完成,然而,现实天下的庞大性远远超出了这些软件的直观操作局限。纵然是一盆花,用 3D Max 举行三维建模也异常痛苦。相比之下,从图像中提取三维信息则简化了物体的建模历程,同时还能保持物体的细节。
以是权龙也很早率领学生研究基于图像的三维建模,厥后还开拓了 Image-Based X Modeling(简称 IBM)系列。
2005 年,港科大视觉实验室关于 IBM 的*个事情揭晓在盘算机图形学顶会 SIGGRAPH 上,建模工具是头发。2006 年,权龙团队又揭晓了围绕植物的建模,2007 年、2008 年、2009 年实验室的 IBM 事情也相继中了 SIGGRAPH,建模工具也重新发、植物升级到修建、街道与都会。
现在自动驾驶领域的高精舆图,智慧都会的衡宇与蹊径建模等手艺成熟,许多事情就是从那时权龙团队的事情延续而来的。
危夷晨与曾钢最早加入研究中,危夷晨主要研究头发建模,后续也揭晓了数篇相关的文章,曾钢的重点则是与植物有关的建模。
谭平介入的项目最多,历经了从花、街道到整个都会庞大场景的三维建模。王井东善于用图、半监视等方式处置图像支解问题,将在清华实验室习得的机械学习履历,迁徙到以应用为重的项目中。而善于写程序的方天是一位摄影发烧友,常给文章提供具有「艺术家审美」的建议。
深度学习风潮来临前,SIGGRAPH 是盘算机图形学的独占的*集会,影响力极高,GPU就是降生于图形学。而权龙团队的 IBM 系列均被 SIGGRAPH 吸收,研究含金量可见一斑。
权龙对港科大视觉实验室学生的一大影响是对事物的执著追求。方天向雷峰网评价,权龙是一个异常纯粹的人,做研究会坚持一个偏向。那时他们在港科大研究三维重修,虽然领域人迹罕至、论文屡遭碰钉子,但权龙以为这个偏向有价值,坚持探索,终成开路人。
谭平记得,读博时他们去参会,权龙在法国早期的学生都已经很乐成,是学术圈著名的人物。权龙的职位也很高,但为人却很简朴,希望学生去捉住一个最基本的点,将庞大的事情简朴化,「有种大道至简的感受。」方天形容。
有时权龙与学生讨论问题,会一最先提出 a 方案,实验室的学生不信托,总以为可以搞 b、c、d 等等 N 种方案,效果兜兜转转一圈,发现 a 方案就是最简朴的。「人生的许多事,无论是做生意、照样做科研,若是一小我私人的头脑太庞大,就会充满林林总总的小技巧,变得十分疲劳。」
由于权龙,「简朴是*的庞大」不仅是一句印在苹果*本产物宣传手册中的 Slogan,港科大视觉实验室内各人对简朴、纯粹也有心里深处的体会。
4
一根藤上几朵花
重视产研连系是港科大视觉实验室的传统。得益于权龙与沈向洋、MSRA 的慎密联系,权龙的许多学生也在读博时期就加入了 MSRA 实习,成为北京与香港两地飞的「双城住民」。
读博时,危夷晨、曾钢、谭平、袁路都在 MSRA 实习过,而且是在差其余组,每小我私人有一位 mentor「靠山」:危夷晨是图形组的以色列老板 Eyal Ofek,曾钢是 Yasuyuki Matsushita,谭平是 Steve Lin,袁路是孙剑。
危夷晨被 SIGGRAPH 吸收的头发建模论文就是 VisGraph 与 MSRA 团队互助的功效。
那时 MSRA 是大陆在 SIGGRAPH 的明星团队,沈向洋带着MSRA 横扫 SIGGRAPH。之后,MSRA 图形组每年都能中好几篇SIGGRAPH,孙剑也是在那时刻发展起来。从 2003 年到 2006 年,孙剑每年都发两篇 SIGGRAPH。SIGGRAPH 的事情量很大,很讲团队互助,孙剑跟贾佳亚互助,也是在那时刻与贾佳亚确立起了深挚的友谊。
2006 年博士结业,危夷晨就直接加入了 MSRA 的视觉组。
危夷晨的代码写得不错,自我要求很高,一个趣事是,博士快结业时,权龙让危夷晨整理出一份代码交接给师弟们学习。那套代码相当于 OpenCV 的外包渲染库,后续实验室的师弟们一直在用,厥后权龙每次到 MSRA 都表彰危夷晨。
危夷晨在 MSRA 事情了 12 年,时代在物体检测、识别与姿态估量偏向的许多事情是微软多个产物的基础,包罗 Xbox Kinect,Windows Hello、Bing、Office、Hololens、Microsoft Cognitive Service 以及微软小冰等。其中,Xbox Kinect 一经推出就销量破万万,号称史上最乐成的消费级电子产物。
2014 年,危夷晨等人在 CVPR 揭晓的每秒 3000 帧人脸要害点检测手艺,也是*个能够在 PC和手机上实时运行的全自由度手势跟踪系统,大幅提高了性能和精度,在业界影响伟大,启发了该领域后续一系列的事情。
在 MSRA,危夷晨也思索清晰了自己的生长偏向:他更愿意做能落地的产物手艺研发,而非单纯的科研。厥后,孙剑脱离 MSRA 加入旷视,危夷晨也在孙剑的约请下于2018年加入了旷视、担任旷视上海研究院认真人。
谭平没有在 MSRA 全职事情过,但也以实习生的身份在 MSRA 实习了七年,研究生三年加博士四年。MSRA 为实习生提供免费的双人宿舍,宿舍在北航招待所一块,包吃包住。读博时,谭平每年基本都是几个月在北京、几个月在香港,因此自己挖苦为「千年迈 intern」。
谭平评价,MSRA 的实习是改变运气的履历,「那时和很优异的研究职员一起互助,人人志同志合,互助写论文,一点都不以为苦。*次投 SIGGRAPH 时,截稿的最后一个星期我爽性就睡在桌子底下,完全不想回宿舍,就以为还差一点点。」
王井东与危夷晨的履历相似,2007 年博士结业后加入 MSRA 全职,一共在 MSRA 渡过了 14 年后才脱离。王井东在微软的日子大要可划分为两个七年:
在*个七年中,王井东致力于盘算机视觉手艺在多媒体搜索中的应用。2007年,面临必应图像搜索的挑战,刚博士结业的他被派去解决多媒体搜索中的图像检索难题,和团队一起开发了基于草图的图像检索手艺,显著提升了搜索效率。
围绕图像搜索,王井东从应用转向基础要害算法研究,深入研究了近似最近邻算法(ANN),并设计了一种基于近邻图的 ANN 搜索算法,该算法在2014年被应用于必应的图像搜索和广告中,成为商业产物中的一个创新应用。
进入第二个七年,王井东的研究重点转向了深度学习。早在 2005 年,王井东在香港读博时便介入过卷积神经网络(CNN)车牌识别项目。而在微软,王井东最先探索深度学习算法在新应用中的潜力,并关注视觉网络架构的设计。
2015 年,他提出保持高分辨率示意的想法,并在 2018 年向导团队设计了 HRNet,该架构在 2019 年的 CVPR 上宣布,迅速获得了学术界和工业界的普遍关注。HRNet 的设计突破了传统的分类架构,通过高中低分辨率的不停交互融合,保持了高分辨率的特征示意,适用于多种视觉义务。
直到 2021 年,王井东才脱离微软,加入百度任盘算机视觉首席科学家,为百度多条营业线提供视觉手艺支持。
袁路是在 2009 年博士结业后进入 MSRA 视觉盘算组事情,至今仍在微软供职,现在是微软云与 AI 认知服务研究部门的首席研究司理,介入研究多模态大模子。
在微软的十五年间,袁路主要钻研盘算机视觉、图形学、盘算摄影学和应用机械学习,多项研究功效被运用到微软的产物和应用中,包罗微软 Pix 相机、OfficeLens、BLINK、Hyperlapse,其主持研究开发的「微软自拍」APP,主打智能美颜、低光照美化照片等功效,曾获得54个国家「*新APP」。
曾钢与谭平博士结业后没有加入微软,而是首先进入了学术界:
2006 年结业的曾钢先是去了苏黎世联邦理工学院从事助理研究员事情,现成为北大人工智能研究院的研究员与博士生导师。2007 年结业的谭平先是去到新加坡国立大学电子与盘算机工程系任助理教授,2014 年又转去加拿大。
拿到教职后,曾钢和谭平都向权龙讨教过若何当一名「青椒(青年西席)」,权龙给了他们三个建议:好好上课,多拿经费,专心带学生。
5
更彻底的工业主义
2012 年后,深度学习崛起,盘算机视觉成为一门显学,受到了资源的热情追捧。对着港科大视觉实验室在三维重修上的研究逐步深入,权龙也最先思索一个新的问题:若何将实验室的研究功效产业化?
港科大向来有产学研连系的传统,高秉强、李泽湘与甘洁组成的「铁三角」是港科大产学研的代表,例如,高秉强投资的安防 CIS 龙头思特威就在 2022 年乐成上市。手艺功效转化最直接彻底的方式无疑是创业。
权龙和学生们创业的契机可以追溯到 2012 年。
方天在他的博士研究中为一系列基于图像的建模事情做出了孝顺。结业后,方天继续留在实验室当博士后,那时无人机市场最先发作,智能手机也越来越普及,作为一名摄影发烧友,方天也最先琢磨起用这些新装备摄影。
方天心里的想法是:怎么连系越来越好的数字图像拍摄硬件和自动化的三维重修手艺让更多的人可以轻松重修三维模子制作三维内容。
这个想法与权龙一拍即合。而正好方天在博士时代做了大量的工程开发为这个想法打下了基础。现在万事俱备,只欠东风。
2015 年,权龙就与方天另有其余博士生一起确立了 Altizure。
Altizure 开发了一个3D重修云平台,适用于来自相机、手机和无人机的所有图像,已乐成应用于大规模 3D 建模。
同时,他们也最先制作都会级其余实景三维模子,为智慧都会和安防系统提供了基础,还进一步拓展了其手艺的应用局限,为测绘和地理信息行业提供大规模数据处置服务。
权龙十分认可方天的想法,在他看来,三维重修手艺的焦点在于数据的获取。随着硬件装备的普及,智能手机、无人机与无人驾驶中的车载相机都配备了高质量的摄像头,能为三维重修提供了厚实的素材。消费级无人机的普及更是让自动化和大规模的数据网络成为可能。
2015 年 Altizure 确立,权龙与方天就同步推出了同名的焦点产物。作为一个创新平台,Altizure 能够将无人机航摄影片转换成三维实景模子。在权龙和方天的设计中,Altizure 将行使无人机飞手的气力,逐步重修出整个地球的三维模子,形成一个众包的 Google Earth。
Altizure 一经宣布,便深受无人机兴趣者和专业用户的青睐。
早先,Altizure 只开放了网站这一个面向消费者的入口。随着手艺的逐渐成熟,权龙和方天意识到,服务应更多地面向企业和政府,即 2B 和 2G 市场。
于是 Altizure 也最先制作都会级其余实景三维模子,为智慧都会和安防系统提供了基础,还进一步拓展了其手艺的应用局限,为测绘和地理信息行业提供大规模数据处置服务。
由于精彩的三维建模手艺, Altizure 很快被国际大厂并购。
而在权龙与方天之后,VisGraph 的第二位创业者是肖健雄。
肖健雄 2009 年去 MIT 读博,隶属于着名的盘算机科学与人工智能实验室(CSAIL),专注于大数据驱动的三维场景剖析研究,博士时代获得了2012年 Google Research 的*论文奖。之后,他加入普林斯顿大学担任助理教授,研究若何将三维视觉应用在机械人领域,开拓了 RGB-D 场景剖析和三维深度学习两项创新研究,在无人驾驶、Visual SLAM 和机械人控制等现实应用领域都展现出了伟大潜力。
自动驾驶兴起后,2016 年肖健雄就辞掉了教职、投身创业大潮,确立了自动驾驶手艺公司 AutoX,专注在 L4。
继肖健雄之后,VisGraph 的第三位创业者是谭平。
2019 年,进入学术界 12 年后的谭平对工业界照样热情不灭,遂回国投身 AI 产业建设,但历程有些崎岖。
他先短暂加入 360 担任人工智能研究院副院长,与颜水成同伴。那时 360 有意研究自动驾驶,谭平善于的三维视觉正是高精舆图、导航、避障等问题所急需的。厥后,360 终止了自动驾驶营业,团队将研究功效转化为了一款扫地机械人。扫地机械人产物上市后,谭平就脱离了 360。
后在浅雪的约请下,谭平加入了阿里人工智能实验室担任视觉首席科学家。
谭平专长 3D 视觉,这方面的人才在海内耐久稀缺。那时阿里人工智能实验室的生长很好,有天猫精灵与自动驾驶等团队,谭平想研究 XR,浅雪也在设计相关产物,找到谭平,就加入了阿里。但没多久,公司组织结构调整,阿里人工智能实验室就被遣散。之后谭平转去阿里云呆了一年半,21年又转去阿里达摩院担任 XR 实验室认真人。
在 XR 实验室,谭平希望打造一款面向消费者的MR眼镜,将元宇宙这一愿景打造成下一代互联网。在他设想的产物里,显示、交互都将从两维升级到三维。社交、电商、娱乐应用都市被彻底推翻,用户可以直接陶醉式的和虚拟信息面临面交流。
*时期,阿里的 XR 实验室有 200 多名研发职员,涣散在北京、杭州、深圳甚至以色列。然而到了 2022 年,XR 热潮逐渐消退,阿里在 XR 偏向的研发战略也有所调整,谭平向导的 XR 项目只做了一年就被紧要叫停,许多员工选择脱离,谭平也于年中去职。
由于阿里的这段履历,谭平意识到,若是他想将 XR 手艺落地,或许不如参考导师权龙的方式:在高校做产学研孵化。以是 2023 年,谭平加入了港科大任教,研究三维天生模子,又确立了 AI 科技公司光影焕像(Light Illusions)。
谭平在港科大的办公室就在曾经 VisGraph 的 4204 实验室楼下。谭平由此向雷峰网叹息,他在学术界与工业界之间多次兜转跳跃,「又回到了梦最先的地方」。
2021 年,危夷晨在旷视履历了三年多摸爬滚打的创业履历后,意识到需要深入扎根到具有主要价值的行业,需要将人工智能算法和工程、产物等专业更好地连系起来。他选择了医疗行业,加入了数坤科技任联席 CTO。
6
写在最后
创业公司被收购后,权龙每周都从清水湾往返于铜锣湾的办公室,每次通勤都要花一个小时,很辛勤。但权龙依然选择住在港科大周围。
港科大远离繁闹的市区,自封为「金牌导游」的权龙对校内每个能看到海和岛的景点了如指掌。闲暇之余,权龙还喜欢领着来港科大造访他的学者、业界同伙们在校园里溜达。权龙的学生们谈到,他的身上总是吐露着一种难以模拟的「松懈感」。
*松懈感的权龙早早选择了三维视觉这条彼时人迹罕至的路「一起走到黑」,从太原、北京、法国到香港,从 ICCV *位中稿华人到 ICCV、CVPR 的大会主席。
值得一提的是,权龙更是迎接新 AI 时代前夕的大会主席:2011 年权龙担任 ICCV 大会主席,CNN(卷积神经网络)在下一年降生;2023 年权龙成为 CVPR 大会主席,天生式 AI在下一年成为焦点。
这一切既是有时,又是一定。
危夷晨、曾钢、谭平、王井东、袁路、方天、肖健雄、张宏辉、王婧璐,、朱思语、黎世伟、罗梓鑫、张滋润、镇明敏、周磊、申天纬、姚遥、张京阳、陈鸿凯、尚嘉祥等人从权龙的实验室走出,也从三维重修走向盘算机视觉的多个偏向,并肩偕行、又散作满天星。二十年已往,他们成为中国三维视觉的代表人物。
对于三维视觉的探路者来说,他们历经统计学习、深度学习再到大模子时代,几起几落,但始终都在起劲跟上时代的前沿,站在视觉的头脑去思索眼前的美妙天下。
好比,危夷晨告诉雷峰网,从港科大到 MSRA、旷视、数坤,他一直在实验打破自己已往的认知和履历。谭平最近将 AGI 话语系统下的「天下模子」与机械人领域的「运动模子」连系起来,也有新的认知,常学常新。
4204实验室的故事已告一段落,但他们的篇章仍未完待续。