如今人们总是能听到有关机器学习的新闻,而机器学习技术确实有更多发展潜力。调研机构Gartner公司预测,对于很多组织来说,80%的人工智能项目仍是一种难以获得成功的炼金术。根据VentureBeat公司发布的“Transform2019”研究报告,87%的人工智能项目将永远无法投入生产。
为什么会这样呢?为什么这么多项目失败?
1.没有足够的专业知识
其中一个原因是,机器学习技术对人们来说仍然是新技术。此外,大多数组织仍不熟悉软件工具和所需的硬件。
如今,从事数据分析或软件开发工作并完成了一些数据科学项目的一些人却将自己标榜为数据科学家。
事实上,组织需要经验丰富的真正数据科学家来处理大多数机器学习和人工智能项目,尤其是在定义成功标准、最终部署和模型的持续监控方面。
2.数据科学与传统软件开发之间的脱节
数据科学与传统软件开发之间的脱节是另一个主要因素。传统的软件开发往往更具可预测性和可衡量性。
数据科学研究通过多次迭代和试验而向前发展。有时,由于选择的度量标准不会驱动用户行为,因此整个项目将不得不从部署阶段返回到计划阶段。
传统的基于敏捷的项目交付可能不适用于数据科学项目。对于在常规软件开发项目的每个任务周期结束时一直在努力交付清晰结果的领导者来说,这将造成大规模的混乱。
3.数据量和质量
众所周知,数据集越大,采用人工智能系统进行的预测就越好。除了数据量增加的直接影响之外,随着数据量的增加,还会出现许多新的挑战。
在许多情况下,组织将不得不合并来自多个源的数据。一旦开始这样做,就会意识到它们同步的次数很少,这将导致很多混乱。有时,组织最终将合并不应该合并的数据,这将导致数据点具有相同的名称但含义不同。
错误的数据会带来无法采取行动或无法提供真知灼见的结果,也会导致误导性结果。
4. 标记数据
标记数据的不可用是另一个阻碍机器学习项目的挑战。《麻省理工学院斯隆管理评论》杂志指出,76%的人通过尝试自己标记和注释训练数据来应对这一挑战,而63%的人甚至尝试构建自己的标记和注释自动化技术。
这意味着数据科学家在标记过程中无法充分利用其专业知识。这是有效执行人工智能项目的主要挑战。
这就是许多公司将标记任务外包给其他公司的原因。但是,如果标记任务需要足够的领域知识,则将标记任务外包是一个挑战。如果组织需要保持数据集之间的质量和一致性,则必须投资于标记人员的标准化培训。
如果要标记的数据很复杂,则另一个选择是开发自己的数据标记工具。但是,与机器学习任务本身相比,这通常需要更多的成本。
5.组织孤立无援
数据是机器学习项目中最重要的实体。在大多数组织中,这些数据将以不同的安全约束和不同格式(例如结构化、非结构化、视频文件、音频文件、文本和图像)驻留在不同的位置。
在不同的地方以不同的格式保存这些数据本身就是一个挑战。然而,当组织孤立无援而却没有相互协作时,其挑战就会加倍。
6.缺乏合作
另一个主要挑战是不同团队之间缺乏协作,如数据科学家、数据工程师、数据管理员、商业智能(BI)专家、DevOps和工程。这对于物联网到数据科学的工程方案中的团队尤其重要,因为他们在工作方式和完成项目所使用的技术上有很多不同。
工程团队将实施机器学习模型并将其投入生产。因此,他们之间需要有适当的理解和强有力的协作。
7.技术上不可行的项目
由于机器学习项目的成本往往非常昂贵,因此大多数企业倾向于以雄心勃勃的“登月计划”为目标,这将完全改变组织或产品并带来超额回报或投资。
这样的项目将永远无法完成,并将推动数据科学团队达到极限。最终,企业领导者将对项目失去信心并停止投资。
8.技术团队和业务团队之间的协调问题
很多时候,机器学习项目在业务团队和数据科学团队之间在项目的期望、目标和成功标准上没有明确的一致性。
这些类型的项目将永远停留在研究阶段,因为他们永远不知道自己是否正在取得进展,因为至今还不清楚其目标是什么。
在这里,数据科学团队将主要专注于准确性,而业务团队将对诸如财务收益或业务洞察力之类的指标更感兴趣。最后,业务团队最终不接受数据科学团队的结果。
9.缺乏数据策略
根据《麻省理工学院斯隆管理评论》杂志的调查,员工人数超过10万名的大型组织将有50%可能采用数据策略。而组织在开始机器学习项目之前制定可靠的数据策略至关重要。
组织需要对以下内容有清晰的了解,这是数据策略的一部分:
组织拥有的全部数据是多少?
项目实际需要多少数据?
所需的人员将如何访问这些数据,以及这些人员访问这些数据的容易程度?
如何将来自不同来源的所有这些数据汇总在一起?
如何清理和转换这些数据?
大多数组织一开始没有计划,或者根本没有想到自己没有数据。
10.缺乏领导支持
很多人认为,只需要投入一些资金和技术来解决问题,其结果就会自动出现。
但是他们没有看到组织领导者提供正确的支持来确保成功所需的条件,而组织领导者有时对数据科学家开发的模型没有信心。
这可能是由于组织的领导者对人工智能缺乏了解,以及数据科学家无法向他们传达模型具有业务利益的原因。
最终,组织的领导者需要了解机器学习的工作原理以及人工智能对组织的真正意义。