自然语言处理的4大趋势

正如最近的发展所反映的那样,自然语言处理(NLP)是AI的重要子集。预计NLP市场规模将从2019年的102亿美元增长到2024年的264亿美元。NLP市场的主要增长因素包括智能设备使用率的增长,采用基于云的解决方案,以及基于NLP的应用程序,以改善客户服务以及在医疗保健行业中的采用率。

这些领域的进步令人期待–改善医疗环境中的患者护理,更好的客户服务,更明智的财务和法律决定,以及整个行业的诸多其他好处。但是,除非了解当前的情况,否则我们无法实现NLP的承诺未来。通过探索企业中NLP的当前实践,挑战和成就,我们可以开始了解企业采用和实施的状态,以及如何释放NLP在未来几年的全部增长潜力。

1.)准确性同样重要且具有挑战性

超过40%的受访者认为准确性是评估NLP库的最重要标准。反过来,四分之一的受访者将准确性作为评估NLP云服务时使用的主要标准。准确性是指在NLP库的多阶段管道中使用的预训练模型。这些模型允许用户输入文本以获得共同的输出,但是自定义模型可能会带来挑战。

例如,语言是非常特定于应用程序和领域的,这使得在训练模型以了解单词的常规用法时特别痛苦,但是却不了解如何识别或消除特定领域的技术术语。在这种情况下,来自DevOps会议的视频转录本的语音转文本服务可能会在名称“ Docker”中标识单词“ doctor”,从而降低了技术的准确性。想象一下,当评估电子健康记录或法律文件中的数据时,这可能有多有害。

2.)流行云服务面临的挑战

来自上述调查的77%的受访者表示,他们至少使用了调查中列出的四个NLP云服务(Google,AWS,Azure,IBM)之一,其中Google的服务居首位。Google Cloud在仍处于采用NLP早期阶段的受访者中特别受欢迎,但是当查看拥有更多NLP部署经验的公司时,云使用率会略有下降。

也就是说,在NLP采用曲线进一步发展的公司中,有65%的受访者仍在使用至少一种NLP云服务。尽管云服务非常流行,但受访者仍将成本视为主要挑战。由于存在太多的NLP应用程序依赖于特定领域的语言使用,并且云提供商对于满足这些市场需求的速度很慢,因此也存在对可扩展性的担忧。

3.)数据和用例提供给NLP

来自文件和数据库的数据位于用于提供NLP项目支持的数据源列表的顶部。接受调查的大多数技术主管(61%)表示,他们的NLP系统使用了pdf,txt,docx等文件。该组中超过三分之一(36%)的人还表示,他们的组织使用文本注释工具为NLP标记培训数据。

一旦获得数据,NLP的四个最流行的应用程序包括文档分类,命名实体识别(NER),情感分析和知识图。到目前为止,文档分类和NER是在沿NLP采纳曲线进一步发展的组织中工作的受访者中最受欢迎的用例。来自医疗保健业的受访者将取消身份识别(38%)称为NLP的另一个常见用例-在被NLP自动化之前,它是手动且劳动密集型的过程。

4.)Spark NLP和spaCy NLP图书馆的安全排行榜

如今,NLP库似乎有无穷无尽的选择,但所有受访者中有一半(53%)至少使用了前两个库之一:Spark NLP和spaCy。更具体地说,三分之一的受访者表示他们使用Spark NLP库,使其成为调查中最受欢迎的NLP库。四分之一的受访者表示,他们使用spaCy和AllenNLP(基于PyTorch的新型图书馆进行NLP研究),使其成为第三大最受欢迎的图书馆。在几个关键行业中,最受欢迎的库略有不同:医疗保健(Spark NLP),技术(spaCy),金融服务(nltk)。

即使在全球疫情大流行中,受访者仍表示NLP支出持续增长。实际上,有53%的技术领导者表示他们的NLP预算比2019年至少高出10%,其中31%的人表示他们的预算比上一年高出至少30%。显然,NLP有望再增长一年,并且通过了解当前的市场状况,看到2021年的未来将令人兴奋。