《架构师》2017年12月
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

观点 | Opinion

商汤科技杨帆:AI落地的关键是算法闭环

作者 蔡芳芳

人脸识别技术,曾经是反乌托邦的科幻小说中出现的想法,现在可能正在成为中国日常生活的一个特色。

广东深圳已经有了人脸识别抓拍行人闯红灯的示范路口,如果你闯红灯的时候被摄像头拍了下来,下次你再试图闯红灯时,你的脸就会出现在街道旁边的显示屏上,显示屏上还会出现一行字:“人脸识别智能抓拍行人闯红灯”。

人脸识别技术已经成为监视领域最有力的新工具之一,地铁站、机场、海关都在使用这项技术。刷脸取款、刷脸支付、刷脸登机等新应用更是层出不穷,刷手机的时代仿佛也才到来没多久,刷脸时代已经来势汹汹。

今年9月下旬,一段被称为“中国天网”监控视频的视频片段在新浪微博和朋友圈里疯传,视频展示了我国最新实时行人检测识别系统,该系统可以实时监测区分出机动车、非机动车和行人,并能准确识别出机动车和非机动车的种类,以及行人的年龄、性别、穿着。而这个系统的背后,其实是商汤科技的Sense Video技术。

主打人脸识别技术的商汤科技成立于2014年10月,其核心创始人汤晓鸥,同时也是香港中文大学教授,领导着计算机视觉实验室,这一特殊的跨界身份似乎也预示了为何商汤科技未来能够横跨学术和商业两界并取得亮眼成绩。商汤科技目前拥有140位博士,2016年Image Net大规模视觉识别挑战赛中,商汤科技联合香港中文大学一举揽下三项冠军;近日,商汤科技与香港中大-商汤科技联合实验室,继以23篇论文横扫CVPR后,又以20篇论文力压群雄称霸ICCV,在全球顶级视觉学术会议上刮起了一阵中国旋风。而在业界落地方面,商汤科技的产品遍布金融、安防、互联网娱乐、AR、智能手机等多个行业场景,与华为、Qualcomm、中国移动、小米等众多公司都达成了合作。2017年7月,商汤科技获得4.1亿美元B轮融资,成为史上人工智能最高单笔投资,直到11月2日旷视科技获得4.6亿美元C轮融资再度刷新这项纪录。

人脸识别大行其道,不免让人对这项技术及其背后的公司产生了许多好奇。人脸识别技术到底有何门道?它经历了怎样的技术演进历程?各家公司宣传的识别正确率百分之99点几后面的小数点真的有区别吗?人脸识别技术在商汤是如何落地的?它带来的安全性问题如何应对?带着这些问题,InfoQ记者来到了商汤科技(下文统称商汤)在深圳的办公室,对商汤科技联合创始人、副总裁杨帆进行了专访。

商汤到底是一家什么样的公司?

提到商汤,大部分人第一反应就是人脸识别,但人脸识别并不足以定义商汤。

在杨帆看来,商汤是一个坚持人工智能原创技术的平台服务提供商,它利用原创的AI技术给不同的行业提供平台化服务、赋能各个行业,让AI技术真正地去改变每个行业。“当然目前来说,我们的工作主要集中在人工智能的计算机视觉,也就是图像和视频分析的这个领域。毫无疑问,人脸作为一种非常特殊且具有极高价值的影象标识,会是整个图像视频分析领域中占比重非常大的一部分。但同时商汤还经常给不同行业提供其他解决方案,涵盖范围会远远超过人脸识别。”

计算机视觉技术的发展和突破

深度学习使CV真正从学术界走向工业应用

杨帆在计算机视觉技术领域沉浸多年,在微软任职期间,他主要从事计算机视觉、计算机图形学等领域的新技术孵化工作,包括人脸识别、图像物体识别、人像三维重建等;目前商汤的核心技术也是以人脸识别、智能监控、图像识别等为主。作为主导技术落地的负责人,杨帆笑称自己是给公司的研究员们打下手的,但回忆起计算机视觉技术的发展历程,他表示还是有很大的感触。

上世纪90年代末期,有一波所谓的人工智能,或至少是人脸识别的热潮。当时在实验室环境下,人脸识别已经能够达到一个相当不错的结果,但离实际应用还是有比较大的差距。从2004年杨帆进入微软实习开始,到2010、2011年这段时间内,计算机视觉领域的技术进步一直在持续,但主要还是积累期,整个行业的技术进步相对比较缓慢,基本没有太多新的应用和机会。到了2011-2012年,随着硬件设备计算能力的进步,以及各大公司开始具备收集海量数据的能力,深度学习变得越来越实用,给行业带来了巨大的改变,从那之后计算机视觉技术就进入了一个特别高速的快车道。计算机视觉技术从学术界蔓延到了工业界,在各行各业都有了越来越多广泛的应用,这是外因。

从内因角度来讲,这一轮以深度学习为核心的视觉技术,对数据的依赖更强了,核心技术研发能力提高了,而且最终得到的成果普适性也变好了。杨帆回忆道,“我以前在微软做过一些人脸识别的工作,在深度学习出现之前,你做一个算法能够把肤色的问题解决得很好,但它可能对光线的问题就很难适应。假如你想要一个对光线适应很好的算法,它可能对肤色问题又解决不好,它的技术突破是单点性的突破。”

而今天,伴随着海量数据的应用,很多识别技术会变成一种相对通用的方法论,可以以更低的成本、更短的时间,快速迁移到不同的领域上,这其中的价值非常巨大。随着人工智能技术的发展,虽然它难度依然很高,但是它的不可知性和风险已经大大降低,在这种情况下,就会有越来越多的企业愿意投入力量到这些技术的研发中,从而带来更大的价值。

以前只有世界顶尖级别的公司才会成立研究院,去做核心技术研究,比如贝尔实验室、微软等。但是今天你会发现完全不一样,我相信未来整个技术在不同行业的落地,对于整个业界生态会有比较大的改变。

基础研究和应用科研,二者不可偏废

业界曾出现一种批评的声音,称现在很多公司和开发者其实对于深度学习的运作原理并不清楚,只知道应用,却不知其所以然。对此,杨帆也有自己的看法。

杨帆表示,学术界有两套观念,一套观念说知其然不知其所以然是离经叛道、是不对的。对于这个观念,杨帆表示认可,其实现在已经有很多团队,包括商汤也投入力量在进行更加前沿、更加基础性的科研,“这样的基础科研能够指导我们将来在正确的方向上走得更远。”但杨帆认为,基础研究与应用科研,二者不可偏废,完整的科学体系和持续的方向性指引非常重要,但是实证科学也非常重要,企业最终还是要以技术落地的结果说话。

脱离场景谈识别正确率毫无意义

近几年,很多公司在人脸识别技术上投入了大量的研发并取得了亮眼的成绩,其中识别率一直是各家宣传的重点,今年我们能在各类报道中频繁看到各种99%、99.4%、99.8%,如何理解这些识别率中小数点后面数字的差距?

技术指标是没法一概而论的,任何一个技术指标背后都隐藏了一大堆的假设条件。

杨帆列举了几个例子,比如在金融场景做1:1的人脸识别,用于互联网金融的注册,这与在家用相册中做人脸识别,也就是把照片集中同一个人的照片找出来,以及在安防场景中,根据模糊的照片在一个海量的逃犯库中找到特定的人,这些场景都是人脸识别,准确率可能都差不多99%、或者99%点几。虽然企业这么宣称,但实际背后蕴含的差异是非常大的,它会有非常多影响因素,所以准确率跟行业背景以及前置假设会是一个强相关的关系。而不同的场景下取得的识别准确率很难做类比。

相比不知前提的识别正确率,更为重要的是,在不同的场景下,企业是不是能够使用原创技术真正地取得突破。在互联网相册的应用场景下,商汤可以说是全世界第一个让计算机的人脸识别超越了人类,而后续很多智能相册的业务和服务都脱胎于这项突破。在杨帆看来,当公司面临一个新的行业场景,和过去的场景不一样且遇到新的挑战的时候,是不是能够率先去形成量变的突破,这才是最重要的。当技术沉淀、数据积累和对业务场景的理解,三者融合在一起的时候,才能帮助公司完成一个真正有价值的、有意义的技术突破。

当识别率达到99%以后,人脸识别技术面临的难点主要在于,如何在不同行业场景中深化这项技术。虽然看上去99%的识别率已经很高了,但不同行业场景对于识别率的要求不同,99%可能只是该技术得以使用的入门条件,比如银行身份认证服务,如今商汤人脸识别的误识别率已经可以做到10的负7次方,相当于7位银行密码,但在这个场景下也才刚刚得以使用;而安防场景下,照片模糊、有遮挡、角度不佳都给人脸识别带来了更现实的挑战。

“看似同质化很强、很简单的人脸识别,细分的技术场景其实非常复杂,所以脱离场景去谈技术是没有太大意义的,今天能看得到的,包括以安防、手机这样的一些重点行业为代表,对于真正的人脸识别技术的全面深化存在着非常多的挑战,值得我们去攻克。”

图像和视频分析比你想像的更复杂

图像和视频分析其实是一个从功能或者从能力角度来看都比较复杂的技术体系,当我们将一项技术落地或深化的时候,它可能需要几个团队合作完成。

商汤在计算机视觉技术领域的探索工作大致可以分为图像增强、物体检测和分类、算法模型、训练引擎等几个方面。

图像智能化增强是图像和视频分析的第一步,虽然今天照片和视频的采集设备已经非常好了,但图像和视频的采集还是经常面临困难,比如用红外摄像头以及结构光摄像头,拿到的深度图信息里面的噪音非常大,或者用安防设备拍摄高速运动的物体时会因为运动而导致模糊,因此分析前需要现对这些图像和视频进行智能化的增强和恢复,又叫做Low Level Vision,这在商汤是一项独立的的工作,目的在于提升采集到的图像和视频的质量。

而图像和视频的识别及分析又可以细分成多个部分,包括物体检测,知道一个东西在哪里;物体的关键点定位,知道物体的关键轮廓和形状;物体的分类,就是对于找到的物体,能够知道它是什么东西;整个区域的分割,对整个物体的边缘或轮廓有非常清晰的描述。实际上,整个识别体系可能需要分成若干个不同的子领域,在真正的行业应用中,它往往是一些子领域叠加组合的应用。

商汤有专门的团队进行基础研究,比如如何将算法小型化,使之能够在资源受限的移动终端上运行;如何优化算法使之运行得更快;AI核心的训练引擎或操作系统的持续升级和演进;弱监督或无监督学习的研究,包括增强学习、迁移学习等前沿技术。

杨帆强调,从计算引擎到数据流程架构,更重要的意义其实不在于数据量,而在于让算法形成一个稳定的闭环。

计算机视觉技术如何落地实际产品

计算机视觉技术在商汤的落地场景

商汤一直非常关注计算机视觉技术的落地,杨帆在早前的一些分享和演讲中也多次提及技术进步需要与产业需求相结合。据杨帆介绍,计算机视觉技术在商汤的产品和业务中主要包含以下应用场景:

安防

过去对安防的理解主要是公安,其实真正意义上的安防还包括交通、线下的商业场景、小区、学校等,可以涵盖的场景非常大。

智能终端

目前智能终端主要指手机,但它未来的形态可能会继续演化,人工智能的技术一定会在这样的终端设备上体现出非常大的价值。

互联网视频类应用

随着互联网应用的进一步加深,它会越来越多地从文本转向图像、视频这种更加丰富的多媒体形态的应用,这些年从直播到短视频的爆发都是例子。在这方面,商汤可以给视频类应用的厂商提供非常完整而丰富的高附加价值的解决方案。

人像身份认证

基于人像的身份认证也是一个非常有价值的工作,它是一个特殊的跨行业的解决方案。这个解决方案现在已经从线上到线下开始极大范围地蔓延。对中国来说,个人公民身份信息的实名制是一个非常重要的诉求,这个诉求能够有效地帮我们在一定程度上解决互联网的安全问题、解决线下的公共安全问题。所有线上的互联网行业应用,到各种线下行业,包括机场、超市、酒店,都会有越来越多的对于个人身份信息核验的强烈需求,商汤在这方面也提供了非常完整的解决方案。

自动驾驶

自动驾驶会是未来一个非常大的标杆性的方向,在这个过程中,人工智能技术会是一个非常关键的环节,商汤在这个领域也有一定的投入和规划。

商汤安防场景背后的技术支撑

一款合格的安防产品,背后绝不只靠人脸识别这一项,而是由多项技术共同支撑。

以一个广场级别的安防监控场景为例,其背后涉及的技术主要包括:

1.硬件设备,即摄像头。对于大型广场,一个摄像头无法全面覆盖,因此可能需要全景摄像头和可拉伸的近景摄像头配合,完成人脸或其他图像的采集。

2.采集算法。摄像头中会集成一个人群分析的算法,即通过收集的数据、结合人工规则,了解这个广场现在哪里人流比较密集、哪里人停留时间比较长,然后让负责抓拍和跟进的摄像头重点关注这些区域。

3.人脸识别。接下来就可以在上述区域使用人脸识别的技术,寻找是否有黑名单(比如扒手库)中的人,可以用于反扒。这也是为什么刚才要找人密集的区域、停留时间长的区域,因为这些是高发区。

4.肢体动作捕捉和识别。在寻找特定人员的过程中,需要进行人体姿态的跟踪,通过对这些人的关键动作进行检测和识别,从而判断是否出现偷窃行为。

5.图像增强。如果摄像头采集到的图片模糊了,还会用到图像增强技术,使图像变得更适合后续步骤分析。

如杨帆所说,真正去看行业落地的时候,往往都是不同的技术叠加和组合的应用,这里面人脸识别和动作识别是最关键的技术,但实际上想把落地场景做好,一定需要多种技术组合。

复合型人才是AI落地的关键

杨帆表示,将创新技术转变为实际产品是一条满是荆棘的道路,行之不易,而其中最大的难点,一是如何选对方向和时机,二是如何找到合适的人才。

AI技术落地需要与行业相结合,而如何去选择需要结合的行业就是第一个难题。杨帆说,“如果技术还没有到真正能成功的门槛,比如搜索引擎中的视频搜索,大公司不断积累可能没问题,但如果是一个小的创业公司,把它作为安身立命之本,难以得到回报,可能两年之后就死了。”杨帆表示,首先需要确认所选择的行业市场是一个真实有效、有规模的刚需市场;其次,需要在市场中真正拿到完整的闭环数据,才能获得持续性的进步;接下来,需要考虑行业当前的技术红线是不是在一个合理的区间内,介入太晚或介入太早,都是会有问题的;最后,在产品落地的过程中,需要考虑如何利用技术门槛期(通常1年到1年半)带来的优势,进一步建立行业壁垒,只有技术壁垒而没有行业壁垒的话,最后从长期来讲还是为他人做嫁衣。

从另一方面来讲,行业落地需要各种综合性的关键技术的整合。行业的需求往往是一些相对模糊的,而且从技术上来看是非常不明确的东西,这时候就需要有人有足够的能力去一一拆解。在杨帆看来,找到或培养一些既有技术背景、又对行业有足够深的理解的人才,是企业实现AI技术落地最关键的一点。他说到,“人才问题、团队组织问题、发展问题,特别是做2B行业,标准化与非标准之间的平衡性掌握,任何一个技术性产品落地会面临的共有问题,做AI技术落地,这些问题一个都不会少,而只会更严重。AI人才是个更大的坑,AI的技术性更深重,从过往来看,它跟行业的结合更弱,所以你想要真正去打磨出一个符合真正行业需求的产品的时候,需要把对行业的理解和对技术的理解融合在一起,这在我看来是最有挑战的,因为过去可能这个世界上基本不存在这样的人,对行业有理解的人很少。”

市场增量期,商汤更愿意合作而非竞争

人工智能领域的创业浪潮中,计算机视觉技术(CV)在国内是一个非常火热的方向,呈遍地开花之势。在安防、金融、机器人、医疗、无人驾驶等诸多业务场景都有大批公司在竞争。

安防是商汤非常重要的一个业务场景,也是国内很多计算机视觉初创企业(如旷视科技、依图、云从等)非常看重的市场,更不用说已经在这个领域深耕多年的海康威视。

杨帆认为,安防市场目前正处于高速增长期,从2018到2019年,整个安防市场还会大爆发,爆发速度可能会超过大家的想象。而商汤的定位是依托原创技术去做能力服务平台,去做不同行业的赋能者,这使得商汤更愿意跟行业上下游企业形成合作而不是竞争的关系。

人脸识别技术的安全性问题

人脸识别技术多用于安防和金融领域,尤其像银行、支付相关的人脸识别应用对安全性要求特别高。前不久苹果发布会上推出的Face ID也引发了大家对于其是否足够安全的讨论。

杨帆将人脸识别的安全性问题分为两种,一种是人脸识别如何做得更准确,不会误识别;另一种则是如何防御非法攻击,比如通过照片、视频等方式绕开人脸识别。随着数据量的增大以及新算法的迭代演进,人脸识别的准确率一直在不断提升,相对而言,后一个问题面对的挑战更大,这个问题在业界又被称为活体检测问题。

对于金融场景的非法攻击防御,商汤目前的做法主要是通过积累大量的攻击数据,并通过模式分析、光谱分析等方法识别出攻击行为的模式,进而抵挡这些攻击。杨帆解释说:“不管用视频还是照片,其实有很多蛛丝马迹是可以看到的,但这种蛛丝马迹人不一定能够特别好地分辨,当有大量数据的时候机器可以比较好地分辨,比如手机屏幕的反光等。”

苹果Face ID采用的3D人脸识别技术,主要的差异在于采集设备,将采集设备换成3D摄像头之后,能够采集到的图像数据信息更大,除了彩色信息之外,还会拥有3D的数据信息,而这些深度信息能够使算法进行更好的分析,从而达到更好的人脸识别以及防御攻击的效果。杨帆认为3D采集设备的研发和发展是一个比较明确的行业趋势,商汤未来在这个方向上也会做一些尝试。

计算机视觉技术的未来

对于计算机视觉技术目前面临的挑战,杨帆认为主要有三点,第一是如何减少对数据的依赖,而这也是行业内大家达成共识的一个大的方向,目前的图像识别模式对于数据依赖太强,人类识别的时候并不需要这么大量的数据。第二个是整体性能优化,就是如何用更低的计算成本完成智能分析,这对于实用化非常重要。第三个则是理论研究,知其所以然还是很重要的,这样更有助于长期发展。

杨帆认为视频的分析理解是未来计算机视觉比较有前景的研究方向之一。他说,“视频的分析理解,其实大家喊了很多年,到底什么时候算是真正成熟的点,不同的人会有不同的判断,会在不同的时期投入。我个人认为互联网作为一个已经成型的、具有特别大的商业价值的体系链,视频的应用在我看来是太少而不是太多。视频或者说视觉信号的潜在价值是非常大的,因为人和人之间沟通其实视觉信息占非常重要的比例,它的信息含量非常丰富。今天互联网已经形成了非常完整的生态,它对信息的五个环节都有特别好的基础技术支撑,在这种情况下,率先对视频领域做更深的探索和挖掘其实是必经之路。很多线下的行业可能有刚需,互联网上的视频、图像,特别是视频内容分析理解相关的领域,在未来其实还是会有很大的空间,今天能够做的事情还是太少。”

在整个人工智能布局上,计算机视觉的定位是怎样的?

视觉是最核心的,而且潜在商业价值也是最大的。

杨帆认为,信息是一切的核心,抛开人工智能,整个IT行业所做的事情就是信息的采集、传输、存储、分析、计算和反馈。而人工智能就是在整个信息环中,机器越来越多地去承担人的角色,可能比人做得更好。人和人日常进行交互的时候,视觉信息是更加本质的信息,所包含的信息量更大,因此计算机视觉在整个信息形态上是以一个相对高阶的形态存在,对各个环节的技术要求都会更高。一旦在每个环节上逐步具备视觉信息的处理能力之后,它所迸发出来的价值可能会超过今天IT互联网行业所能影响的空间,甚至可能会颠覆人和人、人和这个世界的交互。

在杨帆看来,计算机视觉有一个很重要的点,就是人的眼睛能够分析、感受的电磁波是一个很窄的波段,而机器却识别更宽的波段,比如红外摄像头、近红外摄像头、结构光深度的摄像头。杨帆提出了一个很有趣的问题:“这些摄像头能够把人类所能够看到的、能够处理的波段进一步扩展。那这个东西是不是可以一直扩展下去?如果从这个角度去理解,计算机视觉意味着将来机器可以替代人类,或者它作为人类的助手拥有更加本质的对这个世界的洞察。”

杨帆认为,目前我们设计、使用红外摄像头的方式思路还是从人出发的,依赖于人类经验的辅助和指导,也就是先将红外摄像头所采集到的影像信息,转化成一个人类可理解的影像,然后用机器去理解它。他说:“而下一步,很可能是红外摄像头直接去采集机器可以理解的信息形态,然后机器可以再去扩展。”