为什么 NLP 领域没有出现像“CV 四小龙”那样的独角兽公司?
最近几年,在新一波人工智能浪潮翻滚之下,AI 创业如火如荼,赛道上诞生了一批独角兽创业公司,其中多数集中在计算机视觉(CV)领域,尤以“AI 四小龙”—(商汤、旷视、云从、依图)风头最盛。
相较之下,自然语言处理(NLP)则光环黯淡一些,围绕该领域创业的公司也有不少,但目前还没有出现一家像“CV 四小龙”这样的独角兽公司。为什么 NLP 领域难跑出独角兽?这个问题的原因是复杂多元的,InfoQ 采访了 NLP 行业的两位资深专家,希望从现阶段 NLP 技术和应用的角度探究背后的根本原因。
近几年,NLP 技术发展无实质进步?
2016 年,阿尔法狗打败了人类最顶尖的围棋棋手,一时间令科技圈对人工智能所展现出的巨大力量感到“震动”,自此也掀起了第三次 AI 浪潮。
“AI 已经可以在展现人类最高智慧之一的游戏 — 围棋中战胜人类了,但为什么它对语言的掌握却可能还不如小朋友”?这是 NLP 所面临的现状,有些“尴尬”但确实存在。
追一科技 AI Lab 高级算法研究员潘晟锋表示,很多人基于自己的直观感受认为,目前的 AI 系统在处理自然语言上的能力还没有达到人们对于“智能”的普遍预期。
因为自然语言是人们最熟悉的交流载体,人们对自然语言的熟悉程度导致了这种“误解”的产生。其实近几年的 NLP 技术与战胜人类的阿尔法狗所用的技术,本质上都是基于深度学习的,是同一种技术,而人们对其认知却不一样。
业内还有一些观点认为,NLP 技术这几年在技术和运用上都没什么实质性的进步。潘晟锋分析,这种“印象”的形成可能与几个方面的原因有关。
一是从前沿研究成果到工业界的落地运用之间有一个过程,这当中需要考虑新技术的具体落地方式、是否具有规模效应、是否可控等,因此在技术运用上,它相比技术本身有一定的滞后性;其次,很多新的技术被用在了“幕后”。例如一个问答系统,采用传统方法可能需要花费非常多的时间与人力成本,而采用新技术可以用更少的时间与人力达到更好的效果,但这两种技术的展现方式可能是相同的;此外,新技术带来了一些新的运用方式,例如机器阅读理解、可控文本生成等。由于人类对自然语言的熟练掌握会让他们觉得目前还是能够区分和他们在交流的是机器还是真人,尽管如此,这一类新的运用放在以前却几乎是做不到的,只能由人来完成,而目前已经可以做出一定的效果,且实实在在很多场景中节省下人力成本。从这个意义上来讲,NLP 新技术的运用其实也是有非常大的发展的。
“实际上,最近几年,NLP 技术的进步非常明显”,潘晟锋表示。在技术上,目前的 NLP 技术主要得益于深度学习方法的兴起与发展。在深度学习被广泛运用于 NLP 之前,传统方法主要是基于手工特征以及统计模型。深度学习的引入不仅提升了这些传统自然语言处理任务的效果,同时还拓展了传统方法很难或者无法做到的任务,例如基于预训练深度学习模型的文本编码比 tf-idf 编码有更好的效果。此外,机器阅读理解、文本生成等这类更加复杂的任务是传统方法无法很好完成的,而新的 NLP 技术在这类任务上表现出了很好的效果。
京东云与 AI 自然语言部算法部工程师李浩然则认为,尽管以 BERT 为代表的一系列预训练模型在多个 NLP 任务上取得了非常好的效果,GPT-3 展示出的写作能力也技惊四座,但整体上来看,NLP 技术在近几年的实质性进步确实比较有限,“NLP 技术进步缓慢,我认为和自然语言的特性有关。相比于视觉或音频信息,自然语言更加抽象,蕴含了更加丰富的人类定义的知识,导致相比其他技术领域,NLP 的难度更大”。
现阶段,自然语言处理技术在发展过程中还存在不少技术难点和挑战。
一方面,NLP 技术对标注数据依赖性较高,难以在标注数据稀缺的任务、语言或领域内发挥作用。此前小米首席 NLP 科学家王斌在接受 InfoQ 采访时也曾表示,获得大规模的高质量标注数据永远是个难题。当前主流方法的效果取决于标注数据的规模和质量。为解决这一问题,可以采用基于大规模无监督数据的预训练模型,或者尝试半监督或无监督的方法,包括零样本学习(Zero-Shot Learning)或小样本学习(Few-Shot Learning)方法。
第二是轻量级优质模型问题。当前的主流模型需要消耗大量资源进行训练,这种趋势目前看来有增无减。如何得到轻量级的优质模型是一个挑战性问题。可能的解决方法对现有模型的裁剪甚至另辟新路提出新的模型。
另一方面的挑战是长期性的,即如何让机器像人一样掌握自然语言。这是一个很复杂的综合问题,因为语言与认知是相关的。人类用语言表达自己的思维和逻辑,一个人的语言背后是一个智能个体的思维和知识体系。如果希望机器能够理解自然语言,那么它就需要拥有思维能力和自己的知识体系,在这一点上,可以说自然语言处理技术涉及到了人工智能的终极命题。
而突破这个问题可能不会是一个单点的突破,它可能是被划分为非常多的点,例如如何让机器能够有自己的知识体系,如何让它产生自己的逻辑判断等等。另外一方面,现在同时也看到一些最新的庞大的预训练模型,它通过在非常大量的语料上进行训练,展示出了优秀的自然语言能力,能够进行翻译,写作,对一些开放式的问题进行解答,可以说它初步地展现了一种综合的语言能力。因此,也许未来这会是一个有潜力的突破方向。
近日,王海峰在百度语言与知识技术峰会上谈及 NLP 的发展。他表示,复杂知识表示和快速构建技术,知识与深度学习进一步融合,深度融合感知和认知的跨模态语义理解技术,模型可解释性和鲁棒性等,仍有很多技术难题需要持续研究和解决,但他对 NLP 的未来仍充满信心。
缺乏独立的应用场景
“NLP 技术亟待进步,但很多时候,NLP 技术落地面临的问题并非受技术所限,而是来自于产品设计”,李浩然认为,NLP 技术落地现在所面临的有些问题或者说是瓶颈出自产品方面,“比如对于智能客服来说,对于某些表述模糊的用户问题,需要以人机交互的形式,在准确识别用户意图的基础上,再对用户问题进行回复,而不能直接‘硬’回复。以何种方式将 NLP 技术融入产品中去,是我们需要思考的”。
在产品化方面,自然语言处理的对应场景多样性比较高,且 NLP 相关产品中用户的交互体验直接与技术相关,因此如何在目前的技术水平下设计合适的产品是非常重要的命题。潘晟锋坦言,这一方面没有捷径可以走,必须深入到不同的场景中去,要对场景做充分的调研与了解,才能更好地将技术与场景结合。
语言是承载知识和信息最重要的载体,凡是运用到自然语言的地方,都是 NLP 技术可以落地的潜在场景,因此按理说,自然语言处理的应用场景反而比计算机视觉技术的应用场景更多一些。不过到应用时却发现,直观感觉上 NLP 有更广的场景,实际目前上能落地的场景并没有那么多,在商业化应用进程上,自然语言处理技术似乎比计算机视觉进展慢一些。
王斌曾向 InfoQ 表示,深度学习的发展对计算机视觉的影响远比对 NLP 大。深度学习使得很多计算机视觉任务突然具备了落地的可能,因此这些年来计算机视觉领域在商业化和落地方面取得了一些明显的进展。相对而言,NLP 技术一直在工业界平稳落地,不论是搜索、推荐、信息流、互联网金融还是社交网络,NLP 技术都在其中起着十分重要的作用,正是因为应用已经非常广,加上 NLP 技术本身处于底层支撑地位,给人的感官不明显,所以给人造成了落地、商业化进展很慢的假象。
潘晟锋觉得 NLP 应用进展慢,可能是因为相较之下,CV 有非常成熟的落地场景。在他看来,成熟的落地场景指的是场景清晰、目标明确且单一、大众认知普及、理解一致,且具有很好的同质性以便让技术具有很高的可扩展性。对于 NLP 来说,目前主要的制约还是在于场景非常分散且复杂,自然语言的场景通常很难同时具备上面所说的几个性质。
很难找到独立的应用场景是当前 NLP 技术落地的一大难点。李浩然表示,现阶段的很多 NLP 技术离接近人类水平还很远,其在真实场景的应用难以达到用户预期。以机器翻译为例,近几年虽然有长足的发展,但是离人类译员的水平仍有一定距离。
目前 NLP 主要在推荐系统、翻译系统、语音搜索等应用场景上,多起到辅助实际业务的作用。以电商场景为例,商品检索和推荐等环节都有 NLP 技术的使用。
现阶段的 NLP 创业,似乎有一种“市场份额几乎被大厂握在手里”的趋势,BAT 等大厂在推荐、搜索、语音等核心场景都有广泛布局,对于中小 AI 创业公司而言,大厂在一定程度上挤占了它们的市场份额,其面临巨大的竞争和生存压力。
NLP 创业对于大厂和创业公司来说,各有优势。大厂优势是技术积累更加扎实,比如大厂有更好的基础设施经验和数据,利于打“阵地战”;而创业公司更容易专注于某一项任务或产品;小公司有更少的“包袱”、更好的快速试错的灵活性和更深入场景的视野。只要有一个合适的商业模式,且把用户放在第一位,在特定领域内,创业公司可能会比大厂更加有优势。
潘晟锋觉得,从市场份额上看,在 NLP 领域并不是大厂把控,创业公司也占据了很高的市场份额。一些定义比较清晰,方法比较明确的 NLP 应用场景可能会更容易获得大厂的关注,他们会更愿意投入去做这种场景。针对一些比较分散的,定义不是非常清晰的场景,方法一看就不是很明确,但需求是潜在的,这样的场景需要逐个点地去击破,这种情况下创业公司的灵活性就比较有优势。
在商业模式与用户市场的选择上,不少 NLP 创业公司更多面向 B 端,但 NLP 2B 业务较难扩展,这也在一定程度上影响了商业化进程。TO B 和 TO C 方向的 NLP 创业各有不同的挑战。TO B 业务周期长,且往往是定制化服务,成本较高,可移植性较差。TO C 业务对技术要求更苛刻,大众的预期也往往比较高,无法对现有 NLP 技术完全满意。李浩然认为,无论是 TO B 方向还是 TO C 方向,都需要在技术过关的前期下,找准实际需求,精准定位用户,才算是好的创业。
现在谈摘下“皇冠上的明珠”还为时尚早
梳理目前 NLP 在技术和应用的发展格局,不能忽视地是,尽管出现了一些挑战与瓶颈,但整体上纵观整个发展历程来看,NLP 处于快速发展阶段。
InfoQ 此前接触到的多位专家都曾对 NLP 的发展阐发积极的判断。苏州大学特聘教授张民曾表示,现在,自然语言处理处于历史上最好的发展时期,技术在不断进步并与各个行业不断融合,推动技术落地。小米首席科学家王斌曾在 InfoQ发文评论称,NLP 历尽低谷,终于迎来了大爆发的“黄金”时代。
在 2020 年乃至未来的几年里,自然语言处理技术在技术和应用方面出现的下一个大的突破性的进展将会是什么?
根据两位专家的判断,在技术方面,大的技术突破可能出现在如何有效地利用知识(包括语法知识、领域知识、常识等等)对语言进行理解和推理,将知识融合到各项 NLP 任务中,比如基于知识图谱的问答;如何有效地融合多模态信息处理传统的 NLP 任务方面;此外大型的预训练模型这个趋势尽管已经持续了一段时间了,但在未来一段时间内应该还会是主流的方向,同时会向着多语种、多模态和轻量化三个大的方向演进。值得一提的是,多模态融合未来将是一个大趋势,也是必然趋势,人类能够听、说、看、写,机器人也需要这样的能力。
在应用方面,文本生成技术值得期待。随着文本生成技术的发展,在未来我们也许会看到生成技术被越来越多地用到现有的一些场景中来,同时可能也会出现一些以生成技术为支点的新场景出现,内容创作的想象空间很大。据李浩然介绍,京东 AI 已将文本生成技术落地到商品营销文案自动生成场景中,其在生成效率和营销效果上超过人类水平。
自然语言是人工智能领域最难、最重要的技术。微软全球执行副总裁沈向洋曾预判,“下一个十年,懂语言者得天下”。比尔·盖茨曾说过,语言理解是人工智能皇冠上的“明珠”。何时能摘下这颗“明珠”是 NLP 从业者非常期待实现的。按照目前的行业增长态势,什么时候能摘下这颗“明珠”呢?
李浩然表示,NLP 技术远未成熟,况且即使 CV 发展更快,也不能说达到人类水平。所以现在谈摘下 NLP 这颗“明珠”还为时尚早。但是随着 NLP 技术的不断突破,未来可期。
潘晟锋也觉得这将会是一个漫长的过程,要完全解决这个问题,要涉及到计算机科学、语言学、认知科学等多个学科。但从技术实用性角度来说,预期还是很乐观的。“我们现在可以看到的是,一些大型的模型已经有非常高的类智能的表现。这些技术的运用会越来越广泛,也许在几年内我们就会看到 NLP 技术被用到越来越多的场景中去。这放在以前,由于技术的局限,这些场景可能很难用上 NLP 技术,但在以后,由于技术的进步,传统的 NLP 技术做不到的事情我们现在可以做了,它会渗透到更多的以前覆盖不到的场景中”。