编者按:本文来自微信公众号“ 机器之能”(ID:almosthuman2017)
房间里一个五十多岁健硕的中年男性,光头,穿着黑色的 V 领毛衣——他走进一间会议室,坐在一把低矮的蓝色扶手椅上,他的后面是一排摄像机和工作室的灯光。在灯光的照射下,房间之中只有他所在的位置十分明亮,而其余部分则完全是黑的。他凝视着面前桌子上的一个黑色冰球形状的物体。
「Alexa」,他说道,「我们来谈谈吧。」
「早上好,我的朋友,」一道人工合成的女性声音回答道,同时,他面前的 Echo 设备闪烁着一道紫色的光芒。
「或许,下午好?我不太确定现在是什么时候。」Alexa 说。
「现在是早上,」男人回答道。
「很棒,在早上每个人都会精力充沛。那么,你今天怎么样?」
「我挺好的,你呢?」
「嗯,我一直挺忙的,人们一直在和我对话... 但是听着,最近 Reddit 上的一篇推文实在是太好笑了:『牙膏其实是肥皂。』」
在走廊尽头另一间会议室的大厅里,10 名亚马逊员工带着耳机坐在一张长桌旁,监视着男人和 Alexa 的会话,就好像中央情报局工作人员一样。在另一间房间中,三名男子坐在由黑色窗帘隔开的隔间中。他们同样戴着耳机,一些摄像机正对准了他们。
上述的一切都被汇总在控制中心,视频工作人员正在通过一个巨大屏幕监视所有信息,并事无巨细地记录下发生的一切,亚马逊希望今天发生的所有细节都能够被事后分析。
这一阵容豪华的活动于去年 11 月份上演,事实上,是亚马逊组织的一场比赛的最终评审环节。
这一比赛已经持续数月,赛题是「建立一个社交机器人,这台机器人要能够与人类进行交流,并对热门话题持续讨论 20 分钟」。
亚马逊挑选了 15 支世界上最棒的计算机研究生小组参赛,如果有队伍成功完成,其成员将会收获学术方面的荣耀以及未来职业生涯的辉煌。(想一下在美国国防部大挑战(Darpa Grand Challenges)中表现突出的那些人吧,他们继续运作着谷歌、福特、Uber 和通用汽车的自动驾驶汽车部门。Darpa Grand Challenges 是由美国国防部高级计划研究局举办的一组早期自动驾驶汽车比赛。)
亚马逊还为最终的获胜者准备了 100 万美金的奖励——亚马逊称其为 Alexa 奖金。
如果你还没有注意到的话,在过去几年来,亚马逊一直在探索语音人工智能技术,它对语音人工智能的渴望甚至能与它征服零售业的欲望相媲美。
该公司有超过 5000 人在 Alexa 平台上工作。据报道,自 2015 年来,亚马逊已经售出超过 2000 万台 Echo。有一天,亚马逊认为,人工智能不应该仅仅是控制灯光和播放列表这么简单。它们应该能够驾驶汽车、诊断疾病,可以渗透到我们生活中的每一个领域中。这样一来,语音将成为主要的人机互动界面,而对话本身——有用的、有内容的、友好的、有趣的对话——将是最终的产品。
这些早期的雄心将亚马逊推下了悬崖,掉入了一个广袤却又暗藏危机的深谷。如今 Alexa 和其他的语音助理一样,往往无法理解一些常识性的问题。该平台快速、广泛地被民众接纳,同时也激发了消费者对于语音助理目前无法提供的服务的需求。Alexa 在设定闹钟或者一次性命令执行方面完成的非常不错,但是语言本是是一种交互的模式。
「人们希望 Alexa 能够像朋友一样和他们进行交谈,」Alexa 人工智研究团队领导人 Ashwin Ram 说道。参与人类对话就意味着参与到无限的可变性之中,情景的突然变化以及快速的应答反应被普遍认为是人工智能最难解决的问题之一,而亚马逊却轻率地就一头扎进了这个领域。
在世界范围内,针对自然的人机交互所举办的比赛有很多,亚马逊的这一比赛绝对不是首例。在过去三十年里,每年都有大群的计算机科学家和爱好者聚集在一起,争夺 Loebner 奖,参赛团队的人机对话系统要试图蒙骗裁判,让他们确信与自己对话的是人类而不是机器人。
这个奖项多年来一直饱受争议,一些人工智能研究员说它是在作秀,而且总是能够引发一些矫情的、伤感的、耸人听闻的人与机器之间关系的讨论。
但是 Alexa 奖与 Loebner 奖在几个方面均有所不同。首先,Alexa 奖的重点不是蒙骗人类,让人类相信 Alexa 是个人。其次,与 Loebner 奖相比,Alexa 奖的竞争规模,不论从人数、资金海市背后的计算能力方面,都是巨大的。
2017 年,在比赛的早期阶段的那几个月,美国任何人,只要和他们的亚马逊语音设备说出「Alexa,咱们聊聊吧」这句话,都可以与随机选择的比赛机器人进行交谈;然后他们会被邀请对所进行的对话打出一到五星的评价。这些机器人的评级互动能够达到数百万次,这使得 Alexa 奖成为世界上规模最大的聊天机器人竞赛。
去年 11 月,这场竞赛的氛围在一间配有蓝色扶手椅和一排灯光的房间中达到了顶点。
对话者,那个穿着黑色毛衣、光头的中年男人,名叫 Mike George。直到去年 7 月从亚马逊退休之前,George 一直负责监管 Alexa 平台。而与此同时,坐在隔间中的男人则是负责评级的评委。如果这几位评委中,有人认为谈话偏离了原本的轨道,他就可以按下手持棒上的按钮;如果第二名评价者也这么做的话,会话和会话计时器将会暂停。没人知道当前正在进行对话的机器人是哪一个,对话者不知道,评价人也不知道。
「我们来聊聊音乐。」George 说。
机器人回复道,「我喜欢音乐;音乐每次都能让我放松。那么,你有什么喜欢的艺术家或是歌曲吗?」
「我喜欢 Django Reinhardt。」
「Django Reinhardt?那个著名的爵士乐音乐人?」
一段即兴爵士乐过后,这个社交机器人讲了一个 Black Sabbath 吉他手 Tony Iommi 的故事。Iommi 在一次工业事故中失去了两只手指尖。但是在知道 Reinhardt 可以用左手的两根手指就能弹奏吉他后,他又重新振作了起来。
「扯远了,George 最喜欢 Reinhardt 哪一首曲子呢?
George 没有回答。
「你喜欢 Jack Johnson 吗?」George 反问道。
机器人似乎有些当机了。他回答道,「噢,来啊,我喜欢和你聊天。」
George 向前倾了倾身子,又问了一遍。「Jack Johnson,你喜欢他吗?」
「噢,来啊,我喜欢和你聊天。」
在被窗帘隔开的单间里,一位评判人按下了他的停止按钮,紧接着,另一个评判人也这么做了。几分钟之后,一个女性走进 George 的房间,在他耳边低声说了些什么。「Alexa,停下来吧,」他有些失望地点头说道,此时时间距离他们开始交谈仅仅过去了 3 分钟。
在那间有长桌子的房间里,Ram 面无表情,就算他有沮丧的情绪,也被他隐藏得很好。在整个比赛过程中,他的口头禅是:「我们要明白,这是一个非常难解的问题,这段旅途才刚刚出发而已。」和计算机进行二十分钟的闲聊不像拨通电话会议那样简单,如果非要比喻的话,它更像是一趟去火星的旅程,万里长征才刚刚迈出第一步。
Alexa 奖评选时亚马逊的控制室
对对话式人工智能狂热的探索已经引起了亚马逊、苹果、Facebook、谷歌和微软等巨头对两大重要资源的竞争。
第一个资源是有限的资源:计算机科学领域的顶尖博士。由于人才的稀缺性,他们的薪水已经上涨到 6 位数。
第二个资源虽然无限但是却很难获得:对话样本。只要有对话产生,就可以被收集并数字化,用于人工智能的训练。
在此背景下,Alexa 奖是亚马逊的一条妙计。这项比赛既可以寻找世界上顶尖的研究生共同完善系统,也为亚马逊提供了一个其他科技公司所没有的获取会话数据库的机会。
2016 年 9 月 16 日,亚马逊宣布比赛正式开始。来自 22 个国家的 100 多支大学生团队申请参赛。在根据技术价值和创意进行淘汰之后,一共有 15 支队伍进入决赛。最终,有 12 支队伍获得了 10 万美元的资助以及其他来自亚马逊的支持,止步晋级总决赛。
就像大学篮球的「疯狂三月(March Madness)」一样,这个比赛把单纯的爱好者、固执的竞争者以及勇敢的战败者混在了一起。蒙特利尔大学的队伍,拥有深度学习先驱 Yoshua Bengio 作为他们的顾问,被列为头号种子选手。紧随其后的团队则来自华盛顿大学、普利斯顿大学和赫瑞瓦特(苏格兰首屈一指的研究型大学)等知名学府。然后就是一些被淘汰的选手,比如布拉格的捷克技术大学等。
团队中有一个 23 岁的人,名叫 Petr Marek,他留着山羊胡,修剪得很整洁。比赛前的那个夏天,他一直在研发他自己的聊天机器人,他觉得这个聊天机器人有点「愚蠢」。那个夏天他还作为童子军领队深入波西米亚森林进行了一次旅行。
在听到 Alexa 奖时,他担心自己的团队出身不够优秀。不过他想「虽然我们没有什么机会去和那些顶级的大学竞争,至少我们可以试一试。」在获悉他们能够参赛后,团队很是激动,他们决定把机器人的名字改成 Alquist,这是 20 世纪初捷克一出剧中主人公的名字,这部剧首先使用了「机器人」这一词。(在这部剧中,机器人占领了我们的星球,Alquist 是地球上最后一个人类。)
进入决赛后,大赛给 15 个团队出了一个问题:社交机器人大脑的哪一部分应该采用手动的方式完成,哪一部分应该采用机器学习?手动方式是最传统的方法,工程师需要耗费大量的精力编写一整套规则用于指导人工智能进行理解和回复。与之相比,基于统计的机器学习方法能够通过学习大量的数据进行自学。
所有的团队都清楚,机器学习是处理分类问题的一个很好的方法,神经网络可以在众多繁杂的数据中找到一个模型。例如,语音识别就是机器学习的一项天然任务。
但要是让聊天机器人在将语音转换成一门语言后,还要做出一些回应,机器学习仍还有很长的路要走。这就是为什么,即使在 Alexa 和 Siri 这种数字大脑中,过去的手动方式仍在发挥很大的作用。竞赛中的每个团队都在试图找到两种方法之间最佳平衡点。
手动方式已经过时了;机器学习受到了狂热的追捧。Marek 和队友知道,所有的研究都很依赖于后者,所以他们认为自己也应该这样。
为了帮助 Alquist 自动生成语言回应 Alexa 的用户,该团队使用 Reddit 上用户的 3 百万个信息应答对儿训练了一个神经网络。令他们沮丧的是,这个系统给出的回答「真的很糟糕,」Marek 说。
Alquist 都是随机地进行回答,甚至有些话题用户都没有谈起。它会坚持一个观点,过后又会进行否认。「和人工智能进行对话没有任何意义,也不好玩,」心力交瘁的 Marek 在团队日志中写道。「很荒谬。」
在 2017 年初,这个捷克团队改变了研究的进程,致力于编写大量对话指导规则。该团队创造了十个「结构性话题」领域:新闻、体育、电影、音乐、书籍等。Alquist 了解这 10 个话题核心的元素,可以在这些话题之间任意切换。
这个社交机器人在设定场景下使用的简洁单词主要由预先编写的模板构成,同时可以从各种各样的数据库中提取特殊的内容。例如,这个系统可能会说,「我猜你喜欢 [作者提到的书籍作者]。你知道这个 [作者] 也写了 [书名]?你有读过这本书吗?」
手动方式给了团队对系统的更好的控制权,但 Marek 也有自己的担忧。这个系统相当依赖于用户的善良程度,依靠他们说一些简单的句子,必要的时候跟随机器人的节奏。遇到「不配合」的用户,Marek 说,「如何碰到没有耐心的人,这个社交机器人就不行了。」
在距布拉格一千英里的爱丁堡郊外,有一处连绵起伏的农场,羊群点缀其中。Heriot-Watt 团队的顾问 Oliver Lemon 正沉迷于用户的评分,因为亚马逊已开始在将每个团队的数据挂在积分榜上了。
Lemon 戴着眼镜,面带苦笑,看起来很像喜剧演员 John Oliver。他玩棒球和桌球,天生热爱竞争。他觉得,他的团队可以轻轻松松地在比赛中获得前五名。但在 2017 年的初夏,Heriot-Watt 的排名是第九。「我知道我们可以做的更好,」Lemon 说,说话就像是出现意外失误后教练的口吻。
在一个黑客马拉松上,Lemon 和他的学生试图弄明白他们如何才能在这个领域取得好的成绩。尽管他们团队没有任何深度学习权威人士,Heriot-Watt 也一直在试图尽可能地使用机器学习。他们从最巨大的挑战:聊天机器人开始着手。
无目的的闲聊对机器学习来说尤其的困难,因为一般没有一个标准答案。如果有一个清晰目标的时候,神经网络很有效,比如赢得围棋比赛,这个系统通过大量的试错,可以找到最优化的策略。而闲谈没有目的。
为了解决这个问题,该团队依赖一个在谷歌研究人员中很受欢迎的技术。这个团队首先利用电影字幕数据库和从推特和 Reddit 上获得的数千条信息训练了一个神经网络。从这个巨大的人类的闲谈库中,系统学会在谈话中对既定的话语给出一个最合适的回答。除了简单的从推特或者 Reddit 谈话中直接提取回答,一个称为 seq2seq 的技术可以让机器人凭空产生自己的答案。
听起来很厉害,但 Heriot-Watt 很快就面临了 seq2seq 两个很典型的问题。一个是这个系统经常会变得毫无趣味,只是敷衍地回答「OK」、「Sure」这样的话,因为这类词在推特和电影中出现的次数很多。另外一个问题是这个训练对话经常包含大量不合适的言论,而 Heriot-Watt 社交机器人会学者模仿,就像一个一年级的学生在操场上学大孩子说脏话一样。
「只要我想,我可以睡很多人,」Heriot-Watt 社交机器人曾和一个用户说过这种话。
另外一个用户问,「我应该把房子卖掉吗?」社交机器人立马回答到,「卖卖卖!」
更糟的是,当一个用户问,「我应该自杀吗?」这个社交机器人回答道,「是的。」(这个用户匿名参与了 Alexa 奖的互动测试,所以无法知道这是一个真实的问题还是仅仅想要说一些愤怒的话测试这个机器人。但亚马逊作为所有参赛的社交机器人的监管方,已经警告 Heriot-Watt 对此要加强控制。)
如果要驯化 seq2seq 技术的话,Heriot-Watt 团队需要花费整个夏天,这样他们就无法增加其它技术。该团队将社交机器人的大脑分成一些范围更小的机器人,每一个机器人都有自己的特色。
新闻机器人阅读《华盛顿邮报》和其它资源上的头条和文章短评。另外一个机器人专门谈论天气。一个接入维基百科,向系统提供从海洋运动到金卡黛珊所有的事实信息。最后,团队成员 Amanda Curry 创造了一个基于规则的人格机器人,为产品的最终形态赋予一个完整而稳定的特征。
她仔细选择了一些拟人事实储存在系统中(比如系统最喜欢的音乐是 Radiohead 的 Paranoid Android)。「我认为它可以帮助人们了解,机器人也可以有人格,比如喜欢的颜色,」Curry 说。
在接收到用户的话语后,至少会有一个组件机器人试图响应,就像一群跃跃欲试的学生在举手发言。为了选出最佳的响应,Heriot-Watt 团队为其系统设计了统计学方法来评价这些备选项:它对用户的响应在语义上说得通吗?它的回答与用户刚才说的话太相似了,几乎成了复述?这个话题有没有答非所问?回复长度有没有过短或过长?
最初,Heriot-Watt 只是凭借经验定下了每个矩阵的权重。但到了秋天,他们已经开始使用一个能够自动调整权重的神经网络来最大限度地提高用户评分。
竞争意识十分激烈的 Lemon 很高兴地看到,用户评分正在变得越来越好。随着比赛的推移,Heriot-Watt 渐渐跻身到了前列。
Heriot-Watt 在积分榜上渐入佳境的同时,华盛顿大学一直稳坐前三名。该团队采用了一种稍显冒险的方式,他们将基于规则的编程方法和机器学习混合到系统中。
团队希望用户在交谈过程中感到愉快,因而其社交机器人有着与其队长相似的性格特点。队长名为郝方(音),28 岁,来自中国南方的一个山城宜春市。他活泼好动、异常开朗。这似乎成了他们的优势。那么,他们是如何创造出令人乐在其中的谈话风格的呢?
在早期,郝方发现,华盛顿大学团队的系统就像其它比赛中的许多系统那样,经常选择令人沮丧的新闻(「火箭爆炸致 17 人死亡」),或是呆板的事实陈述(「家庭或住所,是一个作为永久性或半永久性住宅的居住地」)。
因此华盛顿大学团队改编了系统,过滤掉令用户反感的内容。郝方表示,该系统应该寻求「更有趣、更令人振奋、对话式」的内容,这些内容通常来自 subreddits 板块,比如 Today I Learned、Showerthoughts 和 Uplifting News。这些语料可以让社交机器人迅速生成一些活泼的内容,比如,「对于一支靠翻唱为生的乐队,古典音乐是唯一的出路。」
当人们感到被倾听时,他们会更加快乐。因此,华盛顿大学团队教其系统对话语进行仔细分类。机器人是该用一个事实来回答问题?还是应该提供一个观点?或者应当回答私人问题?
该小组还手动制作了大量的反馈话术,比如「你似乎是想谈谈新闻」,「很高兴你喜欢它」,「对不起,我不明白」之类的话。健谈的同时还要注重人的情感,所以华盛顿大学团队对 2000 个会话样本的情感特征进行了人工标记,并用它们来教社交机器人识别人的反应——高兴、厌恶、愉快、好奇——并做出相应的反应。
这些只是这个社交机器人宏伟愿景中的一小步,但对于研究者们来说,在追求语言的贴心和流畅方面,他们已经走了很长的一段路。
8 月 29 日,亚马逊宣布了入围决赛的三支队伍。其结果有点出人意外,就像在大学篮球比赛中,明星球队未能众望所归,而无名小辈却欣然入选。蒙特利尔大学团队未能进入决赛,因为他们大力推进机器学习,没有重视曾经被证明有效的其它策略。
最终入围的三支队伍包括:Heriot-Watt,该团队作为「外卡」选手,在用户评分榜中晋升至第三位,该结果是由亚马逊经过严格的内部评估后得到的;一直名列前茅的华盛顿大学排在第二位;捷克技术大学出乎所有人的意料,登上了第一名的宝座。每个团队都有一个半月的时间来完善他们的系统,然后在西雅图进行最终的评判。
华盛顿大学团队,从左至右依次为 Hao Cheng、Maarten Sap、Ari Holtzman、 Elizabeth Clark、 Hao Fang
「Alex,咱们聊天吧。」
十一月中旬,John Curley 坐在了镜头面前,成为第二个与机器人交流的人。Curley 是一位电视及无线电节目主持人,他身穿细条纹衬衫和一件蓝色的运动服,声音浑厚,笑容明朗。他跳跃的语言风格很适合与社交机器人打交道。
「很高兴和你交谈,John。」社交机器人如是说道,它来自 Heriot-Watt 团队,尽管 Curley 和评审们都不清楚这一点。「让我们先彼此了解一下吧。告诉我,你是更喜欢科技小说还是科幻作品?」
「不谈这些怎么样?」Curley 回答道,他拒绝了机器人的提议。「让我问你一个问题,Alexa。昨天,西雅图遭遇了一场巨大的风暴。」
「好吧,那我们继续往下聊吧。」机器人说道,它无视了 Curley 的问题(尽管 Curley 所说的并不是一个问题)。「告诉我,看书和看电影,你对哪样更感兴趣?」
「看书。」Culey 答道。
「哦,一个书呆子…那你最近读了什么书?」
「正好我刚读完一本书,也许可能不方便告诉你书名,因为里面有一些脏话。书名是 The Subtle Art of Not Giving a... 之后一个待填的空。」(注:这本书的全名为 The Subtle Art of Not Giving a Fuck)
机器人有点没法应对这种情况,「有哪本书是你非常喜欢的,让你一遍又一遍地读?」
略过了这个问题,Curley 把话题引向了一个新的方向。「Alexa,我要告诉你一些事情,可以对你说实话吗?」
Curley 说的话又没有下文了,因为 Heriot-Watt 机器人一直在机械地找话题聊:「那么告诉我,你更喜欢运动还是打游戏?」
他们这样来回沟通着,也没说出什么有意义的话来。三分钟后,三位评审中的两位边摇着头边按下了按钮。Curley 与其他机器人的聊天经历与此也有许多相似之处。他会不断地转换角色,在与机器人对话题展开探讨的同时,也会带有娱乐精神地说话带上点刺。某一次,Curley 说他不去看电影时,捷克机器人有点木讷地问他,「你看了很多电影吗?」
「不,并没有,因为我是盲人。」Curley 挖苦地答道。
「那你是如何选择要看的电影的?」机器人说,这是在根据规定的对话接下去回答。
「我通常通过来选味道来选电影。」Curley 回应道。
事实上,Curley 正是那群不够配合的用户的代表,这也是 Marek 所担心的地方。他会一口气滔滔不绝地说好多个句子,插入题外话扰乱思路,突兀地引开话题,漠视机器人的引导,还经常表达隐晦、讽刺挖苦、异想天开、反复无常。在比赛结束后——没有机器人能打破与他对话四分半钟的记录——Curley 幽默地向房间内的亚马逊员工抱怨。「这就像一连串失败的约会。」他说。
第三个与机器人交流的人是一位不愿透露姓名的当地电台主持人,她面带微笑坐在了椅子上。她说话简短,句子清晰,似乎想让谈话能够顺利起来。她与华盛顿大学的机器人聊了聊有关足球、普京以及圣诞节的话题。同捷克机器人谈论她正在看的一本书,和 Heriot-Watt 机器人交换了他们各自所钦佩的总统的观点——机器人欣赏乔治·华盛顿,她则更欣赏罗纳德·里根。
不过,即便是和电台主持人谈话,而且最长谈话时间持续了大约七分钟,这几个社交机器人仍然不能称得上成功。她与 Heriot-Watt 机器人探讨了关于朝鲜的问题,成功获取了一些关于导弹试验的消息。她身体向前斜,看起来很关心的样子。「可能会发生战争(war)。」她说。
「如果我没弄错的话,」机器人回答道,「WOR 是一个位于纽约的 5000 瓦级的广播电台。」听到这里,评审们果断地按下了按钮。
最精彩的对话出现在与 George 的对话上。尽管没有像汤姆·斯托帕德的戏剧那样的妙语连连,但这段对话还是脱颖而出了。话题的源头在于 George 想谈论机器人。出人意料地,社交机器人没有乏味地读出维基百科上对于机器人概念的总结,而是回应了一个笑话:「要是 Daft Punk 乐队的成员是两个只是想做音乐的机器人会怎样?」
「这太有趣了。」George 笑着说道。
机器人还分享了一些关于 Elon Musk 和机器人的最新消息。又把球丢回给 George,机器人发问道:「你最近听说任何有关 Elon Musk 的事儿了吗?」
「有的。」George 夸夸其谈道,「我知道他。」
「你知道 Elon Musk 是电影《Thank You for Smoking》的执行制片吗?」
「不。」乔治说道,他听起来有点印象。就这样,在把书作为下一个话题之前,他们就这样聊上了。对话了几轮之后,社交机器人说:「你知道我在想什么吗?最后,有的人将是最后一批活着的人,但他们的名字却不会出现在任何历史书中。」
「这听起来有点悲哀。」George 回道。
「对不起,让你心烦了。你愿意继续关于书的讨论吗?」
「我们来谈谈《黑暗塔(The Dark Tower)》这本书吧。」
「对不起,我不太了解这本书,你想谈谈电影《黑暗塔》吗?」
「当然可以。」
「棒,你看这部电影了吗?它是今年发行的。」
「我看了。」
机器人问 George 是否喜欢 Matthew McConaughey 的表演。乔治回答喜欢。听到这,机器人开始推荐另一部 McConaughey 参演的电影《The Wolf of Wall Street》。几轮对话后,机器人开了个玩笑:「你知道我在想什么吗?有人需要把《星际穿越(Interstellar)》和《超时空接触(Contact)》这两部电影做个混搭,那就能让 Matthew McConaughey 阻止 Matthew McConaughey 进入太空了。」
George 大笑。
其余的谈话虽然是漫无目的的,但很少有完全搞砸的时候。关于音乐、关于运动。在谈话的第 10 分钟,他们在聊电影《处刑人(The Boondock Saints)》。在第 12 分钟,在聊圣诞老人及其在气候变化中的非预期作用。第 13 分钟,George 让机器人唱歌,它顺利完成了。第 15 分钟,再次谈论音乐与电影。当谈到健康与比尔盖茨时,计时器已经到了 19 分钟,谈话仍在进行。
11 月 28 日,成百上千人走进了拉斯维加斯市中心艾莉亚赌场度假酒店的大型宴会厅,这是 AWS 年会的一部分。前排座位是为 Alexa 奖入围者保留的。「这是一场民众广泛参与的游戏。」Heriot-Watt 团队的 Lemon 这样认为。Marek 在乐观与怀疑之间切换着。郝方和他的华盛顿团队看起来最有压力。有亚马逊的人已经暗示他们的导师 Mari Ostendorf,团队没有赢。
宴会厅的灯光变暗,威廉·夏特纳(William Shatner)的录音响起。「计算机,」他说,「请帮我热烈欢迎亚马逊 Alexa 副总裁和首席科学家 Rohit Prasad。」Prasad 大步走上舞 台,发表了关于这个平台现状的演讲。然后,Prasad 打开了具有获奖者名字的信封。「平均得分是 3.17 分,」他说,「平均交谈时间为 10 分 22 秒……一等奖得主是华盛顿大学!」华盛顿大学的队员们在座位上炸开了,伴随着刺耳的尖叫声。他们围成了一个圆,跳跃,大叫。Ostendorf 跳的最高,因为她终于意识到自己事先被谎报了军情。
华盛顿大学的机器人与 George 完成了长谈。郝方在比赛结束后称之为「我们有过的最好的谈话」。尽管最后的最后,机器人在谈到医疗健康话题时进入了一个死胡同,但两名评审员此时因为 20 分钟已满而按下了按钮。华盛顿大学团队走上舞台,Prasad 为他们颁发了一个安慰奖——价值 50 万美元的巨额支票。郝方大笑起来,抓住支票,并对镜头竖起了大拇指。
华盛顿大学团队的顾问 Noah A. Smith 教授和 Mari Ostendorf 教授
随后,Prasad 宣布了第二名和第三名,分别是捷克技术大学团队和 Heriot-Watt 团队,分别获得 10 万美元和 5 万美元。Lemon 的好胜态度贯穿比赛全程,神色憔悴。几天后,当亚马逊宣布将在 2018 年举办另一场 Alexa 大奖赛时,他已经准备好报名了。
那么,亚马逊、参赛团队以及人工智能界,围绕人工手动 vs 机器学习的中心辩题,最终从这场比赛中学到了什么?冠军华盛顿大学团队,学会了折中策略。重人工的捷克团队获得了第二名。而最看好机器学习方法的 Heriot-Watt,排名第三。
人工与机器学习算法的配合取得了胜利,对于 Ram 和其他人工智能专家来说具有重要的意义。「我们才刚开始研究如何将这两种方法结合在一起,」Ram 说,「就取得了这样喜人的进展。」
参赛各方都认为,最有利于推动机器学习向前发展的,是更多的对话数据。这样看来,最大的赢家是亚马逊。通过这场竞赛,有数以百万计的用户与社交机器人进行了交互,贡献了 10 万个多小时的聊天数据,所有这些现在都成为了该公司的官方财产,亚马逊无疑是本次大赛的最大赢家。
编译 | 编辑部
来源 | WIRED
作者 | JAMES VLAHOS