环信开源国内首本免费深度学习理论和实战图书专著《深度学习理论与实战:提高篇 》,内容涵盖听觉,视觉,语言、强化学习和哲学等,七百多页详尽的理论和代码分析。本文节选自《深度学习理论与实战:提高篇 》一书中的“哲学篇”上半部分:人工智能究竟能否实现?自有意志是否存在?是否存在完全客观的世界?生命是什么?让我们带着这些问题来一探究竟吧......
图书作者李理,环信人工智能研发中心vp,有十多年自然语言处理和人工智能研发经验,主持研发过多款智能硬件的问答和对话系统,负责环信中文语义分析开放平台和环信智能机器人的设计与研发。
美和艺术
“美”是一个物体比如动物、植物、人或者地点的某种属性,这种属性会让看到它的人非常开心或者满足,而与之相反的就是”丑”。我们说情人眼里出西施,美没有一个绝对的标准。但是对于某个特定时期的特定人群,他们还是会有一些标准的。虽然不存在一个美人让所有人都认为她是美的,但是我们(理论上)可以让所有的人对所有其他人的美丑做一个打分,然后做出一个美人排行榜来。如果给定人群,我们是可以定义相对的美丑。注意,这里是定义相对的美丑而不是绝对的,我们很难找出一个绝对第一的美人。因为这个绝对美人必须所有的人都认为她是最美的,而且世界上(甚至包括我们看不见的天堂或者地狱里)也不可能找到一个比她更美的人。
这样的话,如果存在足够的训练数据,机器完全是有可能实现美的”欣赏的”——给定一个人,判断她是否美人,当然打分是一个0-1之间连续的得分。既然机器能够欣赏美,那么它也是有可能”创造”美的。比如它是一个发型师,它可以给一个人尝试不同的发型,然后找出打分最高的发型。同时它可能还会总结出一些经验(特征):不同脸型或者肤色应该使用什么样的发型才能更美。现在的美容(整容)非常发达,未来的技术也会更加发达,也许你喜欢什么样的脸都可以整一个出来,这到底是好事还是坏事呢?
从更加根本的角度来说,什么叫美呢?我们这里先把范围限定在人的美丑上来,因为这个大家都会有自己的感受。
但即使限定到人的美丑上,这也是一个很复杂的问题,因为对于同一个人,随着时间的变化对他的美丑印象也会发生变化。有的人初看起来不怎么,但是了解越多越觉得美;同样有的人初看起来还不错,但相处久了越来越讨厌。另外我们也会有内在美和外在美的说法,内在美会更加复杂,因此我们这里只讨论”肤浅”的外在美,同时我们再把美丑的判定限定在”第一眼”上,也就是第一次见某个人的感受。从异性的角度来说,美丑的作用是什么呢?对于很多动物来说,异性只有在交配的时候才会发生关系,交配前后都形同路人,为了保证后代的竞争力,需要判定异性的”好坏”。动物可没有那么多时间来”谈恋爱”,它们的语言(假设有的话)也只能做非常简单的交流。那怎么办呢?因为生理的差异,雌性的卵子是稀缺的资源(相对于精子而已),更多的自然选择发生在雄性这一方。最常见的竞争方式就是比拼武力,因此在雌性看来强壮的身体一定是美的。除此之外,还有一些雌性选择雄性的时候并不通过”野蛮”的武力决斗。也许是因为武力决斗太过残酷,决斗会导致失败者有丧命的危险,这对于种族来说并不是好事——为了争夺一个雌性导致武力第二的雄性丧命并不合算。因此需要一种不那么血腥残酷但是也能反映雄性武力的方法。许多动物在争夺配偶时会通过比拼声音或者某个器官的大小或颜色,这也是一种可行的解决方法。吼叫声音的大小或者某个器官的颜色能够间接的反映其武力,很多弱者一看对方的”气场”就知难而退了。这样虽然失去了一次交配机会,但是至少保住了性命,留得青山在不怕没柴烧,以后还有机会。对于一些鸟类来说,婉转的啼叫声,漂亮的羽毛也许就是这种进化方式的结果。但是间接的方式也会有问题,这样很可能进化出一些嗓门很大,外表华丽但是内在并不强大的个体。不过自然界会让天敌来惩罚这些”欺诈者”,因为面对危险时,嗓门大和有漂亮羽毛并不管用,逃得快或者眼睛锋利才能提高生存几率。这样就能基本保证嗓门大的确实是生存能力更强的。
人类的社会化程度更高,雄性比拼的更多是智力而不是体力。注意,这里的智力不仅仅指智商。智商的重要性大家都能理解,尤其在人类早期,有特殊技能(智力)的人很受欢迎(当然现在也是)。比如火是重要的工具,能”制造”火的燧人氏就成了部落首领,他的部落甚至能够以此”征服”其他的部落。但是随着人群规模的扩大,从一个部落到一个民族再到一个国家,需要共同合作的事情越来越多,人的沟通、配合和管理能力越来越重要,因此情商也越来越重要。动物界的政治雏形也许是这样的:某个雄性可能斗不过现在的首领,但是它有很强的沟通能力,它能说服同伴一起攻击首领。这样来看的话一个族群的个体之间怎么联合就变成很重要的”政治”活动。因此对于女性来说,男性的外貌美变得不是那么重要了(但是仍然非常重要,这可能编码在基因里了),他的智力则就越来越重要了。为了提高后代的生存能力,人类的男性也会参与后代的抚养和教育,因此人类进化出长期稳定的夫妻关系(虽然古代是一夫一妻多妾制度,但也都是比较长期稳定的关系)。这时异性之间的选择更多的是个人以及家庭的政治地位和经济地位,古代所谓门当户对就是这个意思。但是长期以来编码在基因里的喜好”美”的天性并没有消失,男人娶妻要求门当户对这是父母之命媒妁之言,自己没法做主(中国古代是家族社会,男人在娶妻时基本还是很年轻的时候,在家长中地位最尊的是他的父亲或者祖父),但是纳妾就会考虑她的”美丑”了。
而女性的选择权就少多了,即使是有权势人家的女儿(比如公主),从道德上来讲都只能有一个丈夫,因此选择就会很困难,既要”郎财/才”又要”郎貌”很难实现。因此在古代经典的组合是”郎才女貌”,但爱美毕竟是天性,因此那些不用考虑长久关系的青楼女子似乎更加看中外貌,所谓”姐儿爱俏”。但总体来讲,古代女性更多的是考虑男人的财力或者智力而不是外貌。和自然界相反,人类的雌性(女性)对于美的进化会更加直接一些,动物都是雄性更美(比如公鸡或者鸟类都是雄性的羽毛色彩斑斓)而人类是女人打扮的花枝招展。
从这个角度来考虑美,假设我们设计出智能的个体(比如只要达到动物的智能),然后把它们放到火星去生存进化,那么它们也是有可能进化出美的概念,但是它们的美可能和地球上的动物或者人类完全是不一样的定义。机器和人类相比交换信息更加简单,不需要通过基因的交换就能实现信息的复制,因此它们的”交配”可能更多的是思想上的交换,这更像是人类社会通过言传身教把优良的习惯传递给后代而不是编码到基因里。
前面讨论的是比较狭义的人类在外貌上的”美”,但是美是一个很广泛的概念,在下面我们讨论的艺术中,美是一个非常重要的概念。
艺术比如文学、音乐、舞蹈、绘画和雕塑等等也是通常被认为机器无法实现的。它们通常是和”创意”、”灵感”以及”天才”之类的词汇联系在一起的,别说普通人,即使是艺术家也是须要努力同时还要碰上苹果砸头上这种机遇下才能”妙手偶得之”,并不是随时随地都能创作出佳作的。实现这些创造除了需要逻辑推理等机器擅长的能力,还需要非理性的”灵感”之类的东西,而机器是没有这类东西的,因此机器无法完成这类任务。
根据wiki,艺术是创造视觉、听觉或者表演艺术作品的行为,这些作品用于表达作者的想象、创意或者技巧,目的是为了让其他人欣赏它的美和情感。
和所有的词典定义一样,这里也是循环定义的(汉语词典里欢乐定义成快乐,快乐定义成欢乐)。艺术是创造艺术作品的行为,创造出来的艺术作品最终需要其他人来欣赏,根据人类的感觉器官来分主要有两类——视觉和听觉的艺术。而表演艺术是人在表演的时候动态实时的创造出来的,我们不能说某个舞蹈家是一个艺术作品,只有他/她在表演的时候,他/她的身体作为表现艺术的载体,但是最终欣赏的人还是通过视觉来欣赏他/她的表演。
和人外貌的美丑一样,艺术作品也是为了人类之间的沟通交流。一个画家做一幅画是为了表达某种情感,否则他就是一个照相机了。最早人类作画的目的可能是为了保留信息,比如在山洞里的壁画,因此需要尽量保持真实。这样的绘画作品没有太多的人类(个人)情感,所有(大部分)人一看就知道他画的是个什么东西。但是随着人类社会的发展,人类有了更多精神上的东西(我们会在意识部分讨论精神层面的东西),比如氏族部落会产生宗教,我们会产生天堂地狱往生来世等物质世界不存在的概念。我们画出来的神仙鬼怪看起来就不能太像真实的事物,这就需要发挥我们的创造力和想象力来表现这些并不存在的事物。因此我们的艺术作品也越来越抽象,这些抽象的艺术作品能唤起我们的联想(有时还需要文化、历史的配合),把我们带到作者想表达的意境中,使得我们能感同身受作者的想法。
艺术作品包括形式和内容两部分内容,内容就是艺术家要表达的内容,而形式就是用于表达内容的一些技巧。前面我们在Neural Style里已经看到过了,一幅画作的风格和内容其实是(有可能)分离开来的。人们用签字来确认身份,也就是因为每个人的字迹都是有自己的风格,而跟内容(具体写哪些字)是没有关系的。
当然即使是内容,画家画出来的内容和照相机照出来的内容还是有区别的。画家的画作内容是他从他的视角观察世界得到的感受,然后使用画笔和颜色尝试重构出来,每个人的视觉感受系统都有差别,而且很多作品会附加上作者的情感,同时他会忽略掉一些细节。而照相机则不会有这样的处理,当然照相机也可以调焦,现在的很多软件也能增加不同的滤镜效果,这样可以认为是某种简单的”主观”处理吧。
一个好的艺术家需要有很强的”感受”美和情感的能力,同样看到一只燕子,刘禹锡想到的却是”旧时王谢堂前燕”,感慨沧海桑田,人生多变。通过想象建立客观物体和主观感受之间的联系,从而表达自己的情感。这里的感受并不需要很强的信号接受能力,画家并不需要千里眼,需要的是观察能力。当然除了感受之外还需要很强的表达能力,这里会有形式和技巧的东西,艺术家须要不断的尝试和学习最终形成最适合自己的艺术风格。
这样来分析的话,机器是有可能实现艺术的”创作”的,另外从沟通的角度来说,和上面外貌的美一样,机器群体也是可能进化出艺术创造的的。
前面我们介绍过Neural Style的画作的风格迁移,这可以看做是机器的绘画创作。而在听觉领域,音乐也是用于沟通感情的一种方式,机器来进行某种程度的音乐”创作”也是有可能的。由于篇幅限制,我们之前并没有介绍相关的研究工作,有兴趣的读者可以搜索”music deep learning”,也可以试试magenta(https://magenta.tensorflow.org/)。
除了视觉和听觉的艺术,人类社会还有文字的艺术,比如诗歌。但是由于语言的复杂性(参考后面的语言部分),作者认为目前的机器只能模仿它的形式而不是内容。读者感兴趣的话可以搜索各种作诗的机器人,基本就是使用RNN等训练一个语言模型,它能生成看起来很像古体格律诗的字符串(对不起,我只能称它为字符串因为它并不能表达什么有意义的情感)。