最近,外媒再次揭露了亚马逊、苹果、谷歌、微软和三星等公司对用户语音数据的常用处理手法。这不禁让人疑问:为什么这些公司一定要手动处理用户语音数据?难道没有一种办法可以及保护用户数据隐私,又能保证数据用于模型训练吗?

ÉãͼÍø_400457083_wx (1)wps图片.jpg

Alexa、 Cortana、谷歌智能助手、Bixby、Siri。每天有数亿人使用由亚马逊、微软、谷歌、三星和苹果公司开发的语音助手,且这一数字一直在增长。根据科技出版物 Voicebot 最近进行的一项调查显示,每年至少有 9010 万美国成年人在智能手机上使用语音助手,而其中有 7700 万人在他们的汽车中使用语音助手,4570 万人在智能音箱上使用语音助手。朱尼普研究公司预测,从 2018 年到 2023 年,语音助手的使用量将增加两倍,从 25 亿增长到 80 亿。

然而,大多数用户并没有意识到,他们的语音命令录音不会立即被删除,而是可能被存储多年,在某些情况下,它们会由人工审核人员进行分析,以确保录音质量和功能。外媒 VentureBeat 向语音助手领域的主要参与者了解了他们是如何处理数据收集和审查的,并解析了他们的隐私政策。

亚马逊

亚马逊表示,他们仅注释了 Alexa 录音的“极小一部分样本”,以改善客户体验。例如,训练语音识别和自然语言理解系统“以便 Alexa 能够更好地理解…命令。”他们会雇佣第三方承包商审查这些录音,但表示其有“严格的技术和操作保障措施”以防止滥用,且员工无法直接访问识别信息,仅限于用户帐号、名字和设备序列号。

亚马逊发言人在一份声明中说:“我们使用多因素身份验证、限制访问、服务加密和审核控制环境来保证所有信息的高度机密性。”

在网络和应用设置页面中,亚马逊为用户提供了禁用录音功能的选项。然而,亚马逊表示,选择退出的用户仍可能会在常规审核过程中被手动分析录音。

苹果

苹果在其隐私页面的白皮书中讨论了 Siri 记录的音频审核流程。它解释道,人类“评分师”会审查并标记一小部分 Siri 数据用于开发和质量保证,每个评审员对回应的质量进行分类并指出正确的操作。其表示,这些标签可以“识别”系统,“不断”提升 Siri 的质量。

苹果补充说,为审查而保留的语音是加密和匿名的,与用户的姓名或身份无关。而且,人类审查员不会收到用户的随机识别码(每 15 分钟刷新一次)。苹果将这些录音存储了六个月,在此期间,Siri 的识别系统对它们进行了分析,以“更好地理解”用户的声音。副本被保存(没有识别码)用于改进和开发 Siri,存储时间为 6 个月至 2 年。

苹果允许用户完全退出 Siri 或仅使用“Type to Siri”工具进行本地设备类型或语言搜索。但它表示,无需标识符的录音和相关数据的“一小部分”识别码可能会继续在两年多时间内用于 Siri 持续改进和质量保证。

谷歌

谷歌发言人告诉 VentureBeat,他们进行“非常有限的一部分音频转录以改善语音识别系统”,但使用了“大量技术来保护用户隐私。”具体来说,谷歌称其使用的音频片段与任何个人身份信息无关,并且转录在很大程度上是自动化的,谷歌员工不经手处理。此外,如果使用第三方服务来审查数据,则“通常”只提供文本,不提供音频。

谷歌还表示正在开发不需要人类标签的技术,并且已经发布了针对此目的的研究。例如,在文本到语音(TTS)领域,其Tacotron 2 系统可以仅基于频谱图构建语音合成模型,而其 WaveNet 系统可以根据声波生成模型。

谷歌会无限期地存储谷歌语音助手记录的音频片段。然而,与亚马逊和苹果一样,它允许用户永久删除这些录音,并选择退出未来的数据收集。当然,代价是享受不到语音助手和语音搜索服务。也就是说,谷歌在其隐私政策中的这段话值得注意:“可能会保留与服务相关的信息”,以“防止垃圾邮件和滥用”并“改善 [其] 服务”。

微软

微软的支持页面上概述了有关 Cortana 的隐私惯例。该页面显示,微软收集语音数据以“[增强] Cortana 对个人用户语音模式的理解”,并“不断改进”Cortana 的识别和响应能力,以及“改进”采用语音识别和意图的其他产品和服务的理解能力。

页面上并没有表明微软员工或第三方承包商是否对数据进行人工审核,以及数据是如何匿名的,但该公司表示,当兼容的笔记本电脑和 PC 上启用了始终聆听“Hey Cortana”功能时,Cortana 只有在听到提示后才收集语音输入。

微软允许用户通过访问 Windows 10 中的在线仪表板或搜索页面来选择退出语音数据收集、个性化和语音识别。可以预见,禁用语音识别让 Cortana 停止响应语音。但是与谷歌语音助手一样,Cortana 可以识别出输入的命令。

三星

三星没有立即回复评论请求,但其 Bixby 支持网站上的常见问题页面概述了三星收集和使用语音数据的方式。三星表示,其语音命令和对话(以及有关操作系统版本、设备配置和设置、IP 地址、设备标识符和其他唯一标识符的信息)是为了“改进”和自定义各种产品体验,对话历史记录转换是为了帮助 Bixby 更好地理解不同的发音和语音模式。

根据三星的隐私政策,这些“改进”至少有一部分得益于提供语音到文本转换服务的未公开的“第三方服务”。该公司指出,该提供商可以接收和存储某些语音命令。虽然三星未标明其存储命令的时长,但表示其保留政策考虑到了“有效时限法令的规定”和“用户使用”Bixby 的时间。

你可以通过 Samsung Galaxy 设备上的 Bixby Home 应用程序删除与 Bixby 的对话和录音。

为什么这些公司要手动处理语音信息?

可以看到,大多数公司都未在隐私政策和营销中向消费者明确表示将手动处理用户的语音数据和信息,为什么他们一定要手动处理这些数据呢?

人工审查:必要的邪恶手段?

今天,大多数语音识别系统都得益于深度神经网络——类似于神经元层数学函数随着时间的推移而进行自我改进,以预测音素或感知不同的声音单位。与此前的自动语音识别(ASR)技术不同,后者依赖于手动调整的统计模型,深度神经网络将分段频谱图或声音频谱表示形式的声音转换为字符。

Next IT 首席技术创新官 Joe Dumoulin 表示,根据需要覆盖的意图,构建一个单一语言查询理解模块需要 30-90 天,这是因为人们在与智能助手聊天时经常在连续的问题中调用多个语音应用程序,且这些应用程序重新调整诸如“城镇”和“城市”之类的变量。如果有人提出一个关于方向的问题,接着询问餐馆的位置,一个训练有素的助手需要能够在答案中找出最佳推荐路线。

此外,大多数语音识别系统都会利用手机上的数据库,它包含不同的语音,串联在一起来表达单词。连接(connections)需要在冗长的录音会话中捕获互补的双音素(有两个相连的半音素组成)和三音子(开头半个因素,末尾半个因素)。在最近的一项实验中,Alexa 的研究人员使用 7,000 小时的手动注释数据开发了一个声学模型。开源的 LibriSpeech 语料库包含超过 1,000 小时来自有声读物录音的英语口语,而 Mozilla 的 Common Voice 数据集包含来自 18,000 种语言的 42,000 名志愿者贡献的超过 1,400 小时的演讲。

华盛顿大学助理教授尼古拉斯·韦伯(Nicholas Weber)在一封电子邮件中告诉 VentureBeat,“尽管我们想要相信人工智能已取得突破性进展,但许多最先进的技术应用,如 Alexa,需要人类的参与。当然,人工干预对于 AI 的推理的验证和验证是必要的。我们很多人都知道这一点,但是有很多人并不了解 AI 的局限性。“

据波士顿大学研究副教授 Mayank Varia 称,从隐私来看,这些数据与亚马逊合同工处理的声音样本之间的差异非常明显。在与 VentureBeat 的电子邮件交流中,他表示对方延伸了“匿名化”的定义。

“当亚马逊发言人说’员工无法直接获取可以识别用户的信息’时,可能表示当亚马逊为工作人员提供录音的副本时,不会提供亚马逊用户名或任何其他标识符以及声音片段。但从某种意义上说,这是无关紧要的:声音片段可能比你的亚马逊用户名透露得信息更多。特别是在对话中可能包含你的名字时。”Mayank 在邮件中表示。

“我非常怀疑亚马逊会在将音频交给他们的工作人员之前将其从音频中删除,”Varia 补充道。

以隐私保护的方式收集语音数据

显然,有些公司比其他公司更谨慎地处理语音收集。但是话说回来,真的有必要收集用户隐私数据吗?是否有一种更好、侵略性更弱的方法来改进自动语音识别模型吗?Varia 相信是有的。

“使用安全多方计算(MPC)或同态加密等技术将任何现有的自动化系统转换为隐私保护和自动化系统是可行的(并且越来越可行),”他说。

实际上,在这方面已经取得了一些进展。今年 3 月,谷歌推出了TensorFlow Privacy,这是一个 TensorFlow 机器学习框架的开源库,旨在使开发人员能够更轻松地训练具有强大隐私保障的 AI 模型。具体来说,它通过使用改进的随机梯度下降技术(用于优化 AI 系统中的目标函数的迭代方法)来优化模型,将训练数据示例引入的多个更新平均化,并向最终平均添加匿名噪声。

谷歌表示,TensorFlow 隐私可以防止记忆特殊的细节,并保证无论用户的数据是否用于他们的训练,两种机器学习模型都无法区分。

此外,去年年底,英特尔开源了HE-Transformer,这是一种“隐私保护”工具,允许 AI 系统处理敏感数据。它是英特尔神经网络编译器 nGraph 的后端,基于微软研究院的 SEAL 同态加密(Simple Encrypted Arithmetic Library)。

(文章来源:InfoQ)