环信开源国内首本免费深度学习理论和实战图书专著《深度学习理论与实战:提高篇 》,内容涵盖听觉,视觉,语言、强化学习和哲学等,七百多页详尽的理论和代码分析。本文节选自《深度学习理论与实战:提高篇 》一书中的“哲学篇”上半部分:人工智能究竟能否实现?自有意志是否存在?是否存在完全客观的世界?生命是什么?让我们带着这些问题来一探究竟吧......
图书作者李理,环信人工智能研发中心vp,有十多年自然语言处理和人工智能研发经验,主持研发过多款智能硬件的问答和对话系统,负责环信中文语义分析开放平台和环信智能机器人的设计与研发。
任务分类
第一类任务包括无须太多大脑决策的控制,比如行走、控制身体平衡、用手抓握物体等等。用这类任务来质疑人工智能的很少,原因之一就是这类任务很可能已经实现或者接近实现;另外一个原因就是这类任务较少需要大脑的控制,很多任务动物也能完成,因此这是低级的”智能”任务。
这类任务大部分都是在人的幼儿阶段学习,对于成年人来说这些任务都已经非常自然了,基本不需要太多的大脑思考,下意识(无意识)就可以完成了。但是要完成这些任务并没有想象中那么简单(而下围棋或者做数学题也许并没有想象中那么复杂),人类在习得这些技巧时需要经历很多次的失败,只不过这些儿童阶段的失败并没有给我们留下太多记忆而已。对于这些任务,诀窍就是熟能生巧,通过反复的尝试,形成肌肉的记忆,在接收到类似的信号时第一时间通过条件反射给出应对措施。对应到机器学习上更多的是使用强化学习,不涉及太多语言沟通。我们在书店买不到《骑自行车教程》,因为这些任务没有太多技巧,我们只需要通过不断的练习来提高我们的平衡能力。
因此用这类任务来挑战人工智能的人越来越少,而且他们也很难给出足够的理由说明为什么机器就做不到。某些任务甚至很难说是智能的体现,比如说像人那样直立行走并不见得就是移动自己的最好方式,四条腿跑反而更快。
第二类任务主要是感知的处理,人类的感觉器官可以与机器的传感器做对比。人类有视觉、听觉、味觉、嗅觉和触觉五种感觉,其中视觉和听觉接受的信息最为丰富。人类的听觉和动物不同,动物的听觉虽然也有沟通的作用,但是更多的是用于感知环境比如天敌或者猎物的声音。而人类听觉更多的是用于获取来自同类的语言信息,感知自然声音的能力并不强大。猫可以听到老鼠运动时的细微声音,而人类并无此能力。语言是人类创造的用于沟通的工具,它编码了人类世界的大部分知识,因此语言理解是更高层的任务,我们放到后面讨论。
本书的很多任务就是让机器来实现一些视觉的处理,比如图像识别等等。机器处理这类任务的能力在深度学习时代取得了长足的进步,虽然离人(甚至动物)还有差距——比如它还需要海量的标注数据,而人类(动物)的视觉能力经过亿万年的进化似乎已经编码在基因里了。但是总体来说,也很少有人认为机器无法实现这类任务了。
第三类任务一般需要复杂的计算、推理和规划,比如语言沟通、数学和下棋等等。语言和数学后面会有单独的讨论,而数学里的算术反而是计算机更加擅长的。我们之前也介绍过,对于象棋,更多的是依靠计算速度搜索更深层的未来局面;而围棋则是同时结合局面判断(Value Network)和搜索(MCTS+Policy Network)。之前大家认为计算机很难下好围棋,因为人类下围棋的很多局面判断都很难形式化的定义,比如”棋很厚”等等。但是AlphaGo证明了这些”高深”的词汇不过是人类对类似局面并不完全准确的总结而已,这类似于神经网络自动的特征提取。也许AlphaGo的Value Network和Policy Network里也能发现很多这样的特征,只不过它不能用自然语言描述而已。另外它似乎也没有必要用自然语言描述这些特征,人类用语言来表述它的目的是为了沟通,为了把高手的棋艺传授给其他人。对于机器来说,直接把AlphaGo的模型复制到另外一台机器上就完成了技艺的传授。
第四类任务是与情感相关的艺术,比如音乐、绘画、舞蹈等等。这些任务通常会涉及情感和自我意识,而目前的机器没有,因此经常会用来挑战人工智能,下面我们来逐个讨论这些话题。