图片来源:pixabay
2012 年是神经网络变革的一年。 AlexNet这个在人工智能领域引起轰动的创新模型,以比第二名高出10.9分的识别率赢得了ImageNet图像识别大赛的冠军。 Hinton Trio 在AlexNet 上取得成功的秘诀是使用“多层卷积人工神经网络”。今天我们就来聊聊这个话题。
来自喵视觉的灵感
故事可以追溯到20 世纪60 年代初,当时哈佛大学的两位神经生物学家David Hubel 和Torsten Wiesel 进行了一项有趣的猫实验,如图1 所示。他们使用幻灯片投影仪向猫展示特定模式,并记录猫大脑中单个神经元的电活动[1]。他们发现特定的模式会刺激猫大脑特定部位的活动。由于他们在视觉信息处理方面的杰出贡献,他们被授予1981年诺贝尔生理学或医学奖。
图1:哈佛大学研究人员于1962 年对猫进行的神经生物学实验。
哈佛大学学者的实验证明,大脑皮层的视觉特征反应是通过多种细胞完成的。其中,简单细胞感知光照信息,复杂细胞感知运动信息。 1980年左右,日本科学家福岛邦彦受到猫生物实验的启发,创建了模拟生物视觉系统的分层多层人工神经网络,成为当今卷积神经网络的前身。 Kunihiko Fukushima 在他的论文中提出了一种包含卷积层和池化层的神经网络结构。
福岛先生年轻时出身贫寒,但他对电子技术充满好奇和热情,1965年获得京都大学电气工程博士学位,并加入视觉和听觉信息处理研究组,在该研究组工作。他研究了生物学。福岛随后与神经生理学家和心理学家合作建立了一个人工神经网络。
1979年,“新认知机”神经认知系统诞生。它的灵感来自已知存在于生物初级视觉皮层中的两种神经元:简单的“S”细胞和复杂的“C”细胞,它们后来分别进化。当前的神经网络具有卷积层和池化层[2]。
福岛先生今年88岁了。五年前,他发表了一篇关于神经网络的研究论文。事实上,福岛邦彦的认知系统在40年前就已经具备了卷积神经网络的基本结构,但当时这个网络中的神经元都是人工设计的,根据结果自动学习的能力还不够。孩子没有适应基础知识。不强等等。因此,只能局限于识别少量简单数字的第一阶段。
法国计算机科学家Yann Lequin(1960-)应用反向传播来训练卷积神经网络后,卷积技术于1998 年投入实践。
杨立坤出生于法国巴黎附近,1983年获得巴黎高等电子学院工程学位,1987年获得巴黎第六大学计算机科学博士学位。之后,我进入了巴黎大学。他在博士后Jeffrey Hinton 的指导下在多伦多完成了学位,并与他一起获得了2018 年图灵奖。
1986年,在攻读博士学位期间,严立坤辞去了另一份研究工作,开始专注于反向传播研究。受到Huber、Weiser 和Kunihiko Fukushima 的工作以及他对研究哺乳动物视觉皮层的兴趣的启发,他开发了一种多层网络架构,可以将简单和复杂的细胞交替和反射与通信结合起来。训练。他认为这种类型的网络非常适合图像识别[3]。
1988年,杨丽坤加入新泽西州贝尔实验室。在这里,他开发了多种机器学习技术,包括卷积神经网络[4]。然后他实际上实现了一个卷积神经网络,贝尔实验室将其命名为LeNet,这是对他的姓氏LeCun 的致敬,LeCun 是卷积网络的名字。
人眼如何识别物体?
图像识别一直是人工智能研究的热门话题,这是有充分理由的。最初,人类的知识诞生于对世界的观察,从人眼开始,传播到望远镜、显微镜等各种观察工具。我们伟大的科学是基于大量的观测数据。
计算机必须模仿人类的功能和思维,包括人眼的识别过程。眼睛是一个高度复杂和脆弱的器官,加上它与脑神经的连接和反馈,多年来已经形成和进化了数以百万计的生物视觉机制。人类还没有完全理解先进的产品,当然想要模仿它们也不容易。
人眼到底是如何工作的呢?你可能觉得很简单,但人眼是一个光学系统,物体反射的光线经过晶状体折射到视网膜上形成图像。然后通过视觉神经感知传递到大脑。这就是人们看待物体的方式。最初,人工智能试图通过这种方式来模拟视觉。如图2a所示,接收设备对整个图像进行扫描和像素化,并将其发送到神经网络进行识别。
然而,人眼的感知似乎并没有那么简单。那么人眼如何识别不同的图案呢?更具体地说,人眼如何感知手写字母x?
图2:机器识别和人眼识别
我们的经验表明,人眼一眼就能看出图1b中的每张小图片都有一个x,无论x放在哪里。大么?它小吗?它是红色还是蓝色?你有背景图片吗?
科学家希望机器尽可能做到这一点,有人发明了一种法宝,叫做“卷积”。
什么是卷积?
事实上,卷积的概念比神经网络早得多,如上图3 的公式所示。这就是我们如何将两个函数f(r') 和h(r-r') 相乘并积分r'。对另一个函数g(r) 进行操作。
虽然名称不同,但类似卷积的运算首先出现在达朗贝尔1754年的数学推导中,随后被其他数学家所使用。然而,这个术语于1902年正式首次出现。
后来,卷积被用于通信工程中来描述信号和系统之间的关系。对于任何输入f(t),线性系统的输出g(t) 表示为输入与脉冲响应函数h(t) 的卷积。例如,当歌手使用麦克风进行表演时,麦克风对输入信号进行延迟和衰减,因此通过麦克风听到的歌声与麦克风前面的声波不同。如果麦克风被近似为线性系统并且其对信号的影响由函数h(t)表示,则麦克风输出g(t)是输入f(t)和h(t)的卷积。另一个有趣的事实是,如果麦克风的输入是狄拉克d 函数,则麦克风的输出正是其脉冲响应函数h(t)。
如果我们仔细观察卷积的积分表达式,可以发现积分符号中h函数的积分变量r’的符号为负。如果r在时间t,即h函数“滚动”到其过去的值(时间上反转),然后乘以当前的f值,最后将这些乘积的值叠加(积分)。得到卷积。通过麦克风的例子就很容易理解这一点。因为麦克风在每个瞬间的输出不仅与当前输入有关,还与过去的输入有关。
图3:卷积
总结上一段,卷积就更容易理解了。卷积是函数f 与权重函数h 的加权相加。
数学的美妙之处在于抽象,抽象概念可以应用于许多其他情况。例如,卷积可用于连续函数(例如信号和系统)或离散情况(例如概率和统计)。用于卷积的整数变量可以是例如时间、空间或多维空间。它在AI图像识别中的运用是卷积在离散多维空间中的应用。
卷积层和卷积计算
我们在这里想一下。如果给计算机一个包含“X”的图案,它如何找到“X”?一种可能的方法是让计算机记住一个标准的“X”图案,其想法是将这个标准图像插入到图像的不同部分。输入图像,进行比较,如果某个部分与标准图像匹配,则判定为“X”。 ” 模式被发现。此外,该标准图像最好配备放大、缩小和旋转等功能。
正如前面提到的,人眼可以“一眼”看到图片中的图案。事实上,有一个数学模型可以“一目了然”地描述这一点,那就是d 函数。当d 函数用于卷积时,d 函数仅在孤立点处有值,因此您可以“提取”f 函数在该点处的值。
如图4所示,标准图(图中的卷积核)就像一只眼睛,它的3x3窗口在7x7的输入数据上滑动,就像一只眼睛环视着图,满足标准的提取部分。 出来。这个比较提取过程是通过卷积运算完成的。具体计算过程:卷积就是将窗口扫描到的3x3矩阵元素值与卷积核的3x3矩阵元素值一一相乘,求和,将结果写在1x1中。对应于窗口中心的位置。最终(图中大的7x7)输出矩阵就是卷积的结果。
图4:神经网络识别x时的卷积计算
卷积核的作用可以说类似于代表特定模式的d函数。该图案可以从原始图像中“采样”。用我们之前描述卷积公式的语言来说,图4左边的输入矩阵是f函数,卷积核是h函数,最右边的输出是卷积计算的结果, g 函数。卷积核的矩阵元素(图中的3x3矩阵)是权重因子。卷积核的权重系数以及连接层之间的权重系数也可以通过学习和训练过程进行优化。此外,为了实现非线性化,必须使用适当的激活函数。
卷积的作用就是“提取”。我们提取什么?图像识别,通俗地说,就是提取事物的轮廓。
池化层和卷积神经网络
我们回过头来多思考一下人眼识别物体的能力的特点。从它的轮廓发现它是一只猫后,我发现了一个有趣且有用的事实,即使我大幅缩小图像,我仍然可以确定它是一只猫。这说明保存的轮廓图像存在大量冗余信息。
我们不需要任何额外的信息,因为它会浪费您计算机上的存储空间。此外,过多的信息在某些情况下可能是冗余的,增加了判断的错误率。因此,图4所示的卷积层的计算结果被发送到称为“池化”的网络层。池化特征通过对特征图进行下采样来减少信息冗余,从而减少模型参数量和网络的计算成本,降低过拟合的风险,并消除输入图像中的扭曲,例如特征位置的变化。减少。扭曲、平移和其他视觉模式漂移,进一步降低了灵敏度。
上面的讨论是关于用于识别简单模式的卷积层和池化层。事实上,对于大量的、色彩丰富、复杂的输入图像,需要识别的模式有很多,因此需要考虑很多复杂的因素。上面的特征提取器不是“手动”设计的,而是通过学习自动生成的。自动化是使用反向传播训练的多层网络的吸引力。然而,基本思想与上面相同。多个卷积层以及非线性和池化层足以识别简单的图案(角、边缘等)到复杂的对象(脸、椅子、汽车等)。请参阅。图5.
图5:卷积神经网络整体示意图
卷积和池化计算看起来像是乘法的叠加,它们的总体功能是提取重要信息并降低维度。为了更好地理解这两个神经网络层的作用,我们还可以将它们与音频信号的傅里叶分析进行比较。典型的声音信号(例如音乐)在时域中是非常复杂的曲线,并且它们的表示在每个瞬间都需要大量的数据。当通过傅里叶变换转换到频域时,只能表示少量的频谱、基频和一些泛音数据。例如,最简单的形式,单频声波是一组正弦值,其强度在时域中随时间变化,但在其傅里叶变换后的频域中,它只是一个d 函数。换句话说,傅里叶变换可以有效地提取和保留音频信号的主要成分,并降低描述数据的维度。卷积运算在神经网络中具有类似的功能。首先,抽象重要组成部分,丢弃冗余信息。接下来,降低数据矩阵的维数以节省计算时间和存储空间。然而,当卷积神经网络应用于图像识别时,提取的是图像的空间变化信息,而不是时间谱。
卷积神经网络最广为人知的应用是面部识别技术,常见于手机照片中。例如,“脸”可以被视为简单模式的分层叠加,如图6 所示。第一个隐藏层学习面部轮廓纹理(边缘特征),第二个隐藏层学习面部轮廓纹理(边缘特征)。在第三隐藏层中学习眼睛、鼻子等边缘组成的“形状”,在第三隐藏层中学习由“形状”组成的人脸的“图案”,以及每层提取的物体变得越来越抽象。最后一层特征用于识别输出中的内容(有或没有)。
图6:各层分类能力越来越“抽象”
神经网络起源于大脑模拟,但其后续发展很大程度上受到数学理论和统计方法的指导。正如飞机作为交通工具的发展是从模仿鸟类飞行开始的一样,现代飞机的结构与鸟类的身体结构无关。
张天荣撰稿
参考
[1] 猫视觉皮层的感受野、双眼相互作用和功能结构,D. H. Hubel 和T. N. Wiesel,生理学杂志(1962)
https://www.miner.cn/archive/receptive-fields-bineye-interaction-and-function-architecture-in-the-cat-s-visual-cortex/55a5761e612c6b12ab1cc946
[2] Fukushima, K. (1980) Neocognitron: 不受位置变化影响的模式识别机制的自组织神经网络模型,36, 193-202。
https://doi.org/10.1007/BF00344251
[3] 科学之路: 人、机器和未来如果机器思考,人类会发生什么?作者:【法国】杨丽坤,出版社:中信出版集团,2021-8-1。
[4] Y. LeCun、B. Boser、J. S. Denker、D. Henderson、R. E. Howard、W. Hubbard、L. D. Jackel: 反向传播在手写邮政编码识别中的应用,神经计算,1(4):541551,1989 年冬季。
来源:知识分子
编辑:那条鱼不是我。
转载内容仅代表作者观点
不代表中国科学院物理研究所立场。
如需转载,请联系原公众号。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。