【编者按】深度学习曾被认为是魔法,但如今魔法正在掀开魔术布。取而代之的会是“图网络”吗?
本文首发于新智元,作者M. Mitchell Waldrop;由编辑,供行业人士参考。
AI能将一根香蕉照片识别成一台烤面包机,尽管AI在训练阶段可能被展示了数千张香蕉、蛞蝓、蜗牛以及其他类似物体的照片,就像抽认卡一般,让AI反复练习,直到完全掌握分类为止。
但是,即便是成千上万次训练,这个先进的系统也很容易被搞糊涂——只需要将一张小小的贴纸放到图像的某个角落,就会改变识别结果。
上面这个被称为“对抗攻击”(adversarial attack)的例子是由Google Brain的深度学习研究人员发现的,这项研究突显了人工智能距离接近人类能力之前还有很长的路要走。
多伦多大学计算机科学家Geoffrey Hinton是深度学习的先驱之一,他说:“我最初认为对抗样本只是一个让人烦恼的问题,但我现在认为它们非常深奥。它们会告诉我们做错了什么。”
这也是AI从业者普遍的观点,研究人员中的任何一个人都能轻松说出一长串深度学习的弊端,除了易受欺骗之外,还存在严重的低效率问题。
比如说,让一个孩子学习认识奶牛,并不需要他的母亲说一万遍“奶牛”,人类通常只需要一两个例子就能学习新概念。但是10000遍是深度学习系统通常需要的数字。
然后是不透明问题。一旦深度学习系统被训练完,它是如何做出决定的就不总是那么清楚了。MIT- IBM 沃森人工智能实验室负责人、计算神经学家David Cox说:“在很多情况下,不透明问题是不可接受的,即使它得到了正确的答案。”
假设一家银行使用AI来评估你的信用等级,然后拒绝给你贷款,并且说不清楚拒绝的原因,你会觉得合理吗?
也许最重要的是,它们缺乏常识。深度学习系统可能是识别像素级模式的高手,但它们无法理解模式的含义,更不用说对它们进行推理了。DeepMind的AI研究员Greg Wayne表示:“我不清楚,目前的AI系统是否能够理解沙发和椅子是用来坐的。”
AI的这些弱点越来越多地引起人们的担忧,尤其是自动驾驶方面。自动驾驶汽车使用类似的深度学习系统进行导航,已经出现了几起广为人知的死亡事故。
深度学习方法中的明显缺陷引起了研究人员和大众的担忧,因为自动驾驶等应用使用深度学习进行导航。
“人们已经开始说,(深度学习)系统可能存在问题。”纽约大学认知科学家加里•马库斯(Gary Marcus)说,他是对深度学习最直言不讳的怀疑论者之一。他说:“在一年左右之前,一直存在一种感觉,即深度学习具有魔力。现在人们已经认识到深度学习不是魔法。”
不过,不可否认的是,深度学习是一种非常强大的工具——它使部署面部识别和语音识别等应用程序变得非常常见,而就在10年前,这些程序几乎是不可能的。
所以现在的研究人员很难想象,在这个时候深度学习会消失。
在过去的2018年,深度学习的进展似乎没有达到人们的预期,“深度学习至顶”、“深度学习已死”的论调频现。虽然目前深度学习依旧生命力旺盛,但更有可能的是,人们会修改或增强它,并培养出它的下一代接班人。
今天的深度学习革命起源于上世纪80年代的“大脑战争”(brain wars),当时两种不同人工智能方法的倡导者之间争论甚大。
一种是现在被称为“优秀的老式人工智能”(good old-fashioned AI)方法,自20世纪50年代以来一直占据这个领域的主导地位。
这种方法也被称为符号AI,使用数学符号来表示对象和对象之间的关系。再加上人类建立的大型知识库,这些系统被证明在医学等领域的推理和决策方面非常出色。
但到了20世纪80年代,人们也越来越清楚地认识到,符号AI在处理现实生活中的符号、概念和推理方面表现非常糟糕。
为了应对这些缺陷,一些研究人员开始提倡人工神经网络,或称联结主义人工智能(connectionist AI),即今天的深度学习系统的前身。
这类系统的想法是通过一个模拟节点的网络来处理信号,这个网络类似于人类大脑中的神经元。信号通过连接或链路从一个节点传递到另一个节点:类似于神经元之间的突触连接。而学习,就像在真实的大脑中一样,是一个调整“权重”问题,这个“权重”会放大或减弱每个连接所携带的信号。
在实践中,大多数网络将节点排列成一系列的层,大致类似于大脑皮层中的不同处理中心。因此,比如说,一个专门用于图像识别的网络会有一个输入节点的层,它对单个像素做出响应,就像杆状细胞和锥体细胞对照进视网膜的光线做出响应一样。一旦被激活,这些节点通过加权连接将其激活级别传播到下一级别的其他节点,这些节点组合输入信号并依次激活(或不激活)。
这个过程一直持续到信号到达节点的输出层,其中的激活模式提供一个答案——一个断言,例如输入图像是数字“9”。如果答案错误了——假设输入的图像是“0”——那么“反向传播”算法就会沿着层反向运行,调整权重,以便下次得到更好的结果。
到20世纪80年代末,这类神经网络在处理噪声或模糊输入方面已经证明比符号AI好得多。
然而,这两种方法之间的对峙仍未得到解决,主要是因为当时能够装入计算机的AI系统非常有限。人们仍无法确切地知道这些系统能做什么。
直到2000年,随着计算能力以数量级增大的计算机的出现,以及社交媒体网站提供大量图像、声音和其他训练数据,这种理解才开始得到发展。
首先抓住这波机会的是Hinton,他是反向传播算法的提出者之一,也是20世纪80年代联结主义的主导者。到2005年左右,他和他的学生们训练的网络不仅比以前的要大得多,而且深得多,层数从一层或两层增加到了大约六层。(如今的商业网络经常多达100层以上)
2009年,Hinton和他的两名研究生证明这种“深度学习”比任何其他已知的方法都能更好地识别语音。
2012年,Hinton和另外两名学生发表的实验表明,深度神经网络在识别图像方面可能比标准视觉系统要好得多,“几乎将错误率减半”。
在语音和图像识别的双重突破下,深度学习应用的革命开始了,研究人员改进这项技术的努力也开始了。
早期的优先任务之一是拓展深度学习系统的训练方式,DeepMind公司的Matthew Botvinick说,语音和图像识别系统都使用了所谓的监督学习,这意味着每幅图像都有一个正确的答案——比如“猫”——如果网络错了,你就要告诉它正确的答案是什么。然后,网络使用反向传播算法来改进下一个猜测。
实际上,对于大部分的现实世界任务,需要强化学习。例如,强化学习系统在玩电子游戏时能学会寻求奖励(找到宝藏)和避免惩罚(失去钱)。
强化学习深度神经网络的首次成功实现是在2015年,当时DeepMind的一个团队训练了一个网络玩经典雅达利2600街机游戏。