2020 年已经过去近三个月,随着这一年的到来,Kdnuggets 为大家带来了 20 个人们都应该必知的人工智能、数据科学和机器学习的术语。

KDnuggets 已经策划过一系列关键术语的相关文章,包括机器学习深度学习大数据自然语言处理等等。进入 2020 年以来,Kdnuggets 还没有发表任何关于关键术语的文章,是时候重点介绍一些人工智能、数据科学和机器学习术语了,在不断发展的环境中,我们现在都应该熟悉这些术语。

因此,本文提到的这些术语包含了一些最近出现的概念,以及最近可能被认为更加重要的现有概念。这些定义是 KDnuggets 团队的共同努力所得,包括 Gregory Piatesky Asel Mendis Matthew Dearing 和作者本人 Matthew Mayo

言归正题,本文列出了人们应该必知的前 10 个术语,后 10 个术语将在下一篇文章,这样,我们就可以掌握应该必知的 20 个术语了。

AutoML

自动机器学习(automated machine learning,AutoML)跨越了相当广泛的任务鸿沟,可以合理地认为这些任务包含在机器学习管道中。

AutoML “解决方案”可以包括数据预处理、特征工程、算法选择、算法架构搜索和超参数调优等任务,或者这些不同任务的一些子集或变体。因此,现在可以将自动机器学习视为从仅执行单个任务(如自动特征工程),一直到完全自动化的管道;从数据预处理,到特征工程,再到算法选择,等等。

换句话说,老实说,我最喜欢的方式,如果像 Sebastian Raschka 所描述的那样,计算机编程是关于自动化的;而机器学习是“所有关于自动化的自动化”,那么自动机器学习就是“自动化关于自动化的自动化”。跟我来,看这里:编程是通过管理死记硬背的任务来减轻我们的负担;机器学习使计算机能够学习如何最好地执行这些死记硬背的任务;自动机器学习允许计算机学习如何优化学习如何执行这些死记硬背的动作的结果。

这是一个非常强大的想法,虽然我们以前不得不关心调整参数和超参数、手动执行工程特征、执行算法选择等等,但自动机器学习系统可以通过许多不同的可能方法学习,来调整这些过程以获得最佳结果的最佳方式。

“常规”编程是数据和规则的输入、答案输出;而机器学习是数据和答案输入、排除;自动机器学习包括自动优化一些约束,以从数据和规则答案中获得“最佳”,用任何你喜欢的度量来定义“最佳”。

贝叶斯(Bayesian)

贝叶斯方法使我们能够应用概率分布来对现实世界进行建模,并随着新数据的出现而更新我们的信念。多年来,统计学家普遍采用频率(frequentist)论方法。贝叶斯方法适用于对只有少量数据的假设进行建模,而这些数据在频率论者眼中可能并不重要。

Brandon Rohere 的解释是一个很好的例子,说明了贝叶斯方法的工作原理:

想象一下,你正在看电影,有影友掉了他们的票。你想引起他们的注意。这是他们从后面看起来的样子。你无法分辨出他们的性别,只能说他们有长头发。你会喊“打扰一下,女士!”或者“打扰一下,先生!”鉴于你对你所在地区的男女发型的了解,你可能会认为这是女性。(在这种过于简单化的情况下,只有头发的长度和性别)。现在,考虑一种情况的变化,这个人正在排队上男厕。有了这些额外的信息,你可能会认为这是一个男性。这种常识和背景知识的运用是我们不假思索就能做到的。贝叶斯推断是一种通过数学来捕捉这一点的方法,这样,我们就可以做出更准确的预测。

BERT

BERT 代表来自 Transformer 的双向编码器表示,是一种用于自然语言处理的预训练技术。BERT 的区别于其他语言表示的是双向训练对现有 Transformer 注意力模型的应用。BERT 预先在左右两个上下文中对未标记文本数据的深层双向表示进行预训练,从而得到一个只需添加一个层即可进行微调的语言模型。BERT 在许多自然语言处理任务上实现了最先进的性能,包括问题回答和推理。BERT 和 Transformer 都是由 Google 开发的。

直觉告诉我们,在文本上双向训练一个语言模型,而不是从左到右(或从右到左),将会产生更好的语感“理解”和词义感。双向性允许基于其周围环境的整体性来学习词义,而不是基于从一个方向“阅读”到给定单词出现的点所能收集到的信息来做出决定。因此,在不同上下文中具有不同含义的单词可以分开处理,更好地表达它们的上下文含义(想一想 “bank” 的两个意思:河岸和银行)。

实际上,BERT 可以用于以词或句子嵌入的形式从文本中提取特征,或者 BERT 模型可以根据特定任务(如问题回答或文本分类)的额外数据进行微调。BERT 有几种不同大小的模型(参数数量),并且催生了另外一系列与 BERT 相关的模型,如 RoBERTa 和 DistilBERT 等。

有关使用 BERT 的完整处理和使用教程,请参阅 Chris McCormick 和 Nick Ryan 的精彩文章

CCPA(加州消费者隐私法)

CCPA,即 2020 年 1 月 1 日生效的《加州消费者隐私法》(California Consumer Privacy Act),对收集个人数据的企业以及分析和处理此类数据的企业具有重要意义。它的意图与 GDPR(General Data Protection Regulation,《通用数据保护条例》)类似,但为加州消费者提供了更强有力的保护。CCPA 允许任何加州消费者要求查看公司掌握的关于他们的信息,以及与之共享这些信息的第三方的完整名单。加州的消费者还可以访问他们的个人数据,对出售他们的个人数据予以拒绝,并要求公司删除有关他们个人信息的任何部分。

它适用于任何收集消费者个人数据、在加利福尼亚州开展业务,并且满足以下至少一项要求的企业:

  • 年总收入超过 2500 万美元;

  • 购买或出售 50000 条或更多的加州消费者或家庭的的个人信息;

  • 其年收入的 50% 以上来自所销售的加州消费者个人信息。

有关更多信息,请参阅 CCPA 的 Wikipedia 条目

数据工程师

数据工程师负责优化和管理组织数据的存储和检索。数据工程师将制定线路图,说明如何最好地获取数据并创建用于存储数据的数据库。他们通常会使用云服务来优化数据存储,并创建算法使数据变得有意义。数据工程师是技术性很强的角色,需要掌握 SQL、数据库设计和计算机科学方面的高级知识。

越来越多的数据工程师通过云认证,在云中创建数据库,并在云环境中处理大型复杂数据集,以扩展和优化数据检索。

Deepfake

Deepfake 是使用先进的深度学习和生成对抗网络 GAN 技术创建的伪造图像、视频或音频。这项技术非常先进,结果非常逼真,非常难以识别是否为伪造。下面的视频就是一个使用奥巴马形象和声音的 Deepfake 的例子:

2020 年,人工智能、数据科学、机器学习必知的 20 个术语(上)

视频地址: https://youtu.be/cQ54GDm1eL0

Deepfake 最初是在色情行业中崭露头角的,将明星的面孔叠加到成人视频上,但最近这项技术又有了进步,有了像 FakeApp 之类的应用,以及像 FaceSwap 和 DeepFaceLab 这样的最新开源替代品。

对于声音来说,以前需要几分钟的语音,但最近的技术,只需几秒钟的语音就能产生令人信服的语音模仿。2019 年 9 月,一家公司被骗了 24.3 万美元,骗子使用 Deepfake 技术来模仿该公司 CEO 的声音,这是该类网络犯罪的首例。

现在,Deepfake 的创建者和试图识别它们的网络公司之间正在展开军备竞赛。Facebook 和其他几家公司已经宣布,将投资 1000 万美元,用来发展识别 Deepfake 的技术。请保持警惕,不要盲目相信你在网上所看到的一切,务必核实来源。

部署 / 生产模型

在这个机器学习、深度学习和人工智能的时代,流程的最终目标是将其部署到最终消费者手中。可以通过 Web 部署模型的服务有很多,比如 Heroku、AWS、Azure、GCP、Github 等。不同的服务提供商有不同的成本计算方法,所提供的服务亦略有不同。部署模型并将其投入生产,在一定程度上也需要一些前端和后端开发的知识,并且能够在团队中协同工作。

许多模型现在正在使用云计算提供商进行部署,因为它们可以轻松地扩展到数百万用户,同时能够监控扩展到这种级别的成本。生产中的模型允许组织将其货币化,并为客户创造更好的价值。

图神经网络

数据科学家正在研究数据,成堆的数据。有些数据可能是原始的,也有可能是未经组织的,因为它们是通过“消防水龙带”流入的。其他数据可以是整齐有序(或经过精心策划的),在可管理的维度内进行格式化。有了这些“欧几里得(Euclidean)”数据集,如文本、图像和视频,机器学习在文本生成、图像处理和人脸识别等应用中取得了很大的成功。将运行在一两个 GPU 上的深度学习模型与堆积如山的训练数据结合起来,在数据中发现隐藏模式和有意义的特征的可能性似乎是无限的。

那些相关性更强的数据呢?数据可以通过依赖关系相互连接。用户之间的交互可能会影响电子商务平台上的购买决策。药物发现的化学相互作用是通过复杂的反应相互联系描绘出来的。社交网络是通过不断变化、不规则和无序的关系形成并发展起来的。人脑是建立在一个个相互联系的细胞上的,这些细胞通过缠绕在一起的意大利面条连接起来。

这类数据的关系可以建模为图,其中,数据点表示为节点,关系通过互联链路进行编码。包括深度学习在内的传统机器学习方法需要进一步推广,以便在非欧几里得的、基于图的空间中进行计算。虽然一些相关的工作是在更早的时候完成的,但图神经网络的概念是由 Margo Gori 和他的团队在 2005 年定义的,随后更多的研究扩展到了递归和卷积神经网络的图版本的开发。深度学习研究目前正在积极地将图神经网络方法应用于意大利面条式数据源,这是一个应该在 2020 年密切关注的研究领域。

MLOps 与 AIOps

在将软件开发人员的流程与 IT 服务交付相结合的 IT 组织中, DevOps 取得了巨大的成功,这一术语已经被提升为当今的文化流行语。在大多数流行语扎根后不久,新的环境或适用领域就会紧跟着炒作。

术语 MLOps 就是如此,它代表了通过与数据科学家和 IT 专业人员的有效合作来开发和布书机器学习模型的最新最佳实践。对于许多数据科学家来说,在一个明确定义的开发生命周期中工作应该是非常受欢迎的,因为正式的和自我教育追踪(self-guided educational tracks)往往侧重于人工智能机器学习的基础,对于生产部署的要求不那么熟悉

AIOps 将人工智能应用到组织的运营中,它引入了所有机器学习技术,从 IT 系统中提取有意义的见解。这种方法将人类的智能和人工智能算法相结合,以增强 IT 团队做出更好、更快的决策,实时响应事件,并开发优化的应用程序来促进更有效或自动化的业务流程。据 Gartner 的预测,到 2023 年,将有 30% 的大型企业 CIO 会专门使用 AIOps 来改善运营,从整个 IT 组织中 AIOps 的演变中,我们将会看到更多的东西。

迁移学习(Transfer Learning)

考虑以下在训练机器学习模型时可能出现的两个问题。第一个问题是,通常没有足够的训练数据来充分训练一个模型。第二个问题是,即使(尤其是)存在足够数量的训练数据,训练过程通常也是非常耗费资源和时间的。

如果考虑到机器学习模型通常是针对特定任务在特定数据上进行训练,并且结果模型是针对特定任务的,那么这些模型的最大潜力通常是无法发挥的。一旦数据和计算被用来训练模型,为什么不在尽可能多的情况下使用这个模型呢?为什么不把学到的东西迁移到新的应用程序中呢?高度优化的训练模型是否可以用于更广泛的任务分类呢?

迁移学习涉及到利用现有的机器学习模型,以便在模型最初未经训练的场景中使用。就像人类不会丢弃他们以前所学的一切,并在每次接受新任务重新开始一样,迁移学习允许机器学习模型将它在训练期间获得的“知识”移植到新任务中,从而扩展了原始模型所使用的计算和专业知识组合的范围。简单地说,迁移学习可以节省训练时间并扩展现有机器学习模型的实用性。对于从头开始训练模型所需的大量训练数据不可用的任务,迁移学习也是一种非常宝贵的技术。

考虑到时间和计算的消耗,迁移学习允许我们更好地将模型的实用性最大化。关于训练数据不足的问题,迁移学习允许我们采用针对潜在的大量数据进行训练的预训练模型,并根据可用的少量特定任务数据对其进行调整。迁移学习是一种有效的方法,可管理机器学习模型训练中两个明显的潜在缺点,因此,它的应用越来越广泛也就不足为奇了。

作者简介:

Matthew Mayo,机器学习研究员、Kdnuggets 编辑。

原文链接:

https://www.kdnuggets.com/2020/02/ai-data-science-machine-learning-key-terms-2020.html