2.3.2 卷积神经网络_高能效类脑智能：算法与体系架构-QQ阅读科幻男生网

上QQ阅读APP看书，第一时间看更新

2.3.2　卷积神经网络

FCNN的最大缺点是，由于神经元之间的突触紧密连接，因此存在参数过多的问题。对于涉及图像和音频的许多应用，可以利用信号空间域和时间域的不变性来减少所需突触的数量。

CNN的经典形式见图2.18。在每一层，输入数据和输出数据都是四维张量。在前向传递中，根据图2.19所示的伪代码，由输入图计算出每层的输出图。O［n］［m］［p］［q］是第n个批次中位于第m个输出图的第p行第q列的输出元素。I［n］［c］［h］［w］是第n个批次中位于第c个输入图的第h行第w列的输入元素。W［m］［c］［r］［s］是位于权重滤波器的第r行第s列的权重元素，分别对应于第c个输入通道和第m个输出通道。B［m］是输出通道m的偏置。表2.2和图2.18显示了所有参数的详细含义。步长大小U和V用于表示滤波器如何在输入图上滑动。垂直步长为U表示滤波器在垂直方向上移动了U个单位，从而在输出图中获得两个垂直相邻的数据。类似的定义也适用于水平步长V。注意，P和Q不是自由参数，而是根据下面两个等式获得：

图2.18　典型CNN的组成。对于每个卷积运算，输入图的每小块通过几个滤波器进行卷积操作。不同的滤波器导致不同的输出通道。出于分类目的，全连接层通常（但不一定）用作CNN的最后一层

图2.19　CNN中涉及的典型卷积运算的伪代码。通过嵌套7个for循环，将输入特征图（四维张量）转换为输出特征图（四维张量）

表2.2　图2.18和图2.19中各参数的含义

顾名思义，CNN是涉及卷积的网络，尤其适用于图像和音频输入。以图像为例，像素之前存在空间关联性。对于位于图像左上角的像素，与位于图像右下角的像素相比，其周围的像素通常具有更强的相关性。CNN可以将图像通过一堆滤波器进行卷积操作来利用这种空间相关性。值得注意的是，即使未在图2.18中显示，CNN中也经常需要非线性激活函数，或者将多层神经网络转换成为两层线性神经网络。

理想情况下，CNN中的每个滤波器都试图寻找一个特定特征。输入图中通常有许多不同的特征。因此，通常可以获得比输入图更多的输出图。因为步长为1的卷积运算本身不会显著减小输入图的大小，如果我们在两个卷积层之间不做任何事情，随着网络层数的增加，我们要处理的数据量将迅速增长。而池化操作有助于减少需要处理的数据，它将一组数据转换为一个数据，如图2.20所示，可以通过平均池化或最大池化来完成。在该图中，步长假定为2。平均池化操作输出的是输入块中的平均值，而最大池化输出的是输入块中的最大数值。

图2.20　平均池化和最大池化的图示。平均池化和最大池化分别对应输出块的平均值和最大值

在训练方面，无论CNN涉及多么复杂的连接，CNN的训练在本质上都与FCNN的训练相同，轻微的区别是CNN中存在权重共享，需要把不同输出经过反向传播后得到的误差相加，以获得共享突触的误差。在评估方面，CNN通常有计算的限制。对于FCNN，它不存在权重复用（跨不同批次除外），并且必须将权重连续地传输到计算单元。而CNN可以将突触权重用于不同的输入块和不同的批次，如图2.19所示。因此，在实现CNN加速器时存在各种策略，这将在第3章中详细讨论。

本周热推：

AI加速器架构设计与实现机器人SLAM导航：核心技术与实战深度学习案例精粹人工智能时代：未来已来机器学习中的统计思维（Python实现）