企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密
上QQ阅读APP看书,第一时间看更新

10.2 计算机视觉面临的困境及突破

如图10-2所示,是多个数字的图像集。

图10-2 数字图像集

图10-3是一张写有数字的图像,从人眼识别的角度,图像中的数字为5、0、4、1、9、2。

图10-3 数字图像

注意,人的眼睛可以识别5、0、4、1、9、2,那么究竟是怎么识别出这些数字的?读者可能认为这是人的直觉,但这没有太大的意义。假设生活经验中没有经过训练,也没有见过数字,那就不会知道这些数字是5、0、4、1、9、2,从出生到识别出数字人类也是需要几年时间的。在2006年以前,计算机的视觉识别系统并没有超越传统的软件编程方式,也没有超越人类。2006年前后,人工智能领域取得了一个重大的突破,在图像识别中引入了神经网络作为技术支持。神经网络使用很多层,通过很多张图像的训练,从图像中发现特征然后进行识别。也许读者认为也不过如此,但这里有两点很重要:第一,2006年前后,在计算机的图像识别中引入了神经网络作为技术支撑;第二,神经网络系统会收集一个训练集,训练集中有很多训练的例子,这些用来训练的图像不需要人工干预,由系统自动找出其中的特征和规律,然后进行识别。