爱思唯尔

自然语言处理期刊

第 4 卷,2023年9月,100026
自然语言处理期刊

探索深度学习和自然语言处理的前沿:全面概述主要挑战和新兴趋势

https://doi.org/10.1016/j.nlp.2023.100026获取权限和内容
在知识共享下许可证
开放获取

抽象

在最近5年多的时间里,深度学习(DL),尤其是大型语言模型(LLM),在一个由传统研究者社会组成的明显平均低迷的知识领域中产生了广泛的研究。因此,深度学习现在是如此普遍,以至于它在与机器学习计算相关的研究中得到了广泛的应用 。在各种任务中,深度学习架构的迅速出现和明显领先于传统机器学习技术,这确实令人惊讶。DL 模型自然语言处理 (NLP)、图像分析、语言理解、机器翻译、计算机视觉、语音处理、音频识别、风格模仿和计算生物学等多个领域表现出色。在这项研究中,目的是解释深度学习的基本原理,例如神经网络、卷积神经网络、深度信念网络和深度学习的各种变体。该研究将探讨这些模型如何应用于NLP,并深入研究它们背后的基础数学。此外,该研究将调查 DL 和 NLP 的最新进展,同时承认该领域的主要挑战和新兴趋势。此外,它还将从分类学的角度讨论深度学习的核心组成部分,即嵌入。此外,还将提供文献综述,重点关注深度学习模型在六种流行模式识别任务中的应用:语音识别、问答、词性标记命名实体识别文本分类和机器翻译。最后,该研究将揭开最先进的 DL 库/框架和可用资源的神秘面纱。本研究的结果和启示表明,由于法学硕士依赖统计学习技术,缺乏对语境、预设、隐含和社会规范的真正理解,他们在处理语言的语用方面面临挑战。此外,本研究对当前最先进的进展进行了全面分析,并强调了重大障碍和新出现的发展。这篇文章有可能增强读者对主题的理解。

关键字

自然语言处理 (NLP)
机器学习 (ML)
大型语言模型 (LLM)
词嵌入
深度学习 (DL)

1. 引言

语言在感知社会的遗产和情感方面起着至关重要的作用。在有足够的文本数据的情况下,自动内容分析使我们能够获得对社会的大量见解和理解。今天,全世界有超过7000种语言被使用。根据 Ethnologue 的数据,英语是使用最多的语言,全球有 13.5 亿人使用英语。百分之八十的英语说英语的人是第二、第三或更高语言,每十个人中只有两个人是母语人士。普通话是世界上第二大常用语言,有 11.2 亿人使用普通话,然而,这些人中只有 9.21 亿人将其作为第一语言(Beytía et al.,2022)。1

全球有 6 亿人使用印地语,是使用最广泛的语言,其次是西班牙语(5.43 亿)、阿拉伯语(2.74 亿)和乌尔都语 2.3 亿。语言是根据全球书写系统使用图形字符组合书写的,称为脚本。据报道,全球现存的文字数量估计为294种。虽然 133 种历史文字,例如埃及象形文字和阿兹特克象形文字,已不再使用,但今天仍在使用多达 161 种文字。语言充满了突出文化独特性的特殊性。每年的 2 月 21 日被庆祝为世界母语日(Beytía et al.,2022)。拉丁语在全球至少有 305 种语言中使用,包括英语、法语和西班牙语,是现存 161 种实时文字中最普遍的。图 1 显示了世界上最常见的文字。

最初,互联网旨在用英语向用户显示信息,但现在随着时间的进步,工具的进步,以及世界上有凝聚力的数字资源的易于访问,网络演变成一种多语言的数据媒体。NLP是一个基于计算和人工智能的技术的理论驱动领域,用于对人类自然语言进行机器控制的分析和表示,以在计算机和人类之间建立显着的联系(Cambria和White,2014)。

  1. 下载:下载高分辨率图像(374KB)
  2. 下载 : 下载全尺寸图片

图 1.世界上最常见的文字。

正如NLP科学界所看到的那样,在线平台上的多语言材料最近爆炸式增长。因此,单语和多语言信息检索 (IR) 任务的研究对 NLP 科学界很有吸引力。复杂的 NLP 工具对于从文本中挖掘相关信息至关重要。适用于全球许多语言的Avant级NLP工具和方法都是基于DL方法的。如今,NLP 和 DL 是数据科学的两个尖锐的重点领域。NLP允许计算机执行广泛的自然语言相关任务,从文本分类,问答等到机器翻译和语音识别。目前,数据科学主要集中在两个领域,即NLP和DL。借助 NLP,计算机可以执行与自然语言相关的各种任务,例如文本分类、问答,甚至机器翻译和语音识别。

DL 涉及机器学习能力的倾向,它确定了深度架构中的多层次表示。深度学习架构已经在计算机视觉和模式识别等领域取得了惊人的进步。如今,现代NLP研究正逐渐集中在新型深度学习算法的实践上。在深度学习方法出现之前,大部分NLP任务都是通过生成式或判别式学习方法进行的,如隐马尔可夫模型(HMM)、条件随机场(CRF)和支持向量机(SVM)等。所有这些模型都是在非常高维和稀疏的特征上训练的(Young等人,2017)。在过去的几年里,神经网络的深度学习架构,其学习基于密集的向量表示,已经在各种NLP任务上产生了巨大的结果。然而,传统的机器学习基础 NLP 系统在很大程度上对手工织造的特征进行仲裁。这种手工织造的特征需要很长时间才能开发,而且往往没有详细说明(Young et al., 2017)。

研究预测,在未来几十年内,机器智能将在各种任务中超越人类(Grace et al., 2017)。研究人员估计,机器智能有50%的可能性在45年内在所有任务中超过人类,所有人类劳动将在120年内实现自动化。图 2 显示了 AI 何时超过人类的表现,而图 3 显示了网络上的一分钟活动会产生多少数字数据。

我们的研究深入研究了各种深度学习模型,包括卷积神经网络 (CNN)、深度信念网络、递归神经网络 (RNN) 和长期短期记忆 (LSTM) 网络,这些模型适用于重要的自然语言任务。我们的目标是在DL的帮助下揭开NLP中所有相关工作的神秘面纱,讨论与NLP计算处理相关的最重要问题,并突出当前的研究工作以及未来的研究趋势。

  1. 下载 : 下载高分辨率图片 (167KB)
  2. 下载 : 下载全尺寸图片

图 2.预测人工智能将超越人类的年份(Grace et al., 2017)。

  1. 下载:下载高分辨率图像(378KB)
  2. 下载 : 下载全尺寸图片

图 3.互联网上的一分钟活动2.

与过去研究的差异:过去,关于NLP和DL交叉的研究有限。即使在今天,在NLP领域的低资源语言背景下,也只进行了少量的应用工作,例如LLMs模型。Al-Ayyoub等人(2017)仅调查了阿拉伯语的基于DL的研究工作。作者仅提供了关于深度学习方法的文献调查,缺乏对深度学习方法的分类学和深度学习历史的讨论,也没有提供对不同深度学习方法和相关问题的比较研究。同样,Young et al. (2017) 对用于处理 NLP 中各种任务的 DL 模型和方法进行了重要回顾。尽管(Young et al., 2017)的研究工作利用了各种深度学习模型,但细节不足,作者跳过了对各种流行模型的讨论,如受限玻尔兹曼机和深度信念神经网络,也缺乏许多流行的深度学习应用领域,如机器翻译、文本分类等。这种趋势促使我们进行彻底的研究,以评估该主题的深度学习方法的现状。我们希望通过对比各种可用的深度学习架构来检测对模型性能的影响,使潜在的研究人员更容易更好地掌握这些架构的优缺点。本调查涵盖了170多项研究,并对这些相关作品进行了总结和分析。本研究的主要贡献如下:

  • 提供历史并揭开流行 DL 模型的分类和变体的神秘面纱

  • 从分类学的角度探索嵌入的概念

  • 研究 DL 模型对大多数流行的 NLP 任务的影响和意义,例如语音识别、文本分类、机器翻译、词性标记命名实体识别、问答

  • 揭开可用最先进的 DL 库/框架和资源的神秘面纱

  • 提及并讨论 DL 和 NLP 领域的局限性、挑战和新兴趋势

这项研究对DL和NLP领域的研究人员和从业者具有重要意义。通过全面概述当前技术水平并强调关键挑战和新兴趋势,本文可以帮助读者更好地了解该领域。反过来,这可能会为未来的研究提供信息,为研究人员探索新方向和克服现有局限性提供路线图。此外,本文对DL和NLP潜在应用的见解可能对新技术和应用的开发产生影响。

本研究对识别DL和NLP领域的新兴趋势具有重要意义。这些见解可能有助于未来的研究人员理解预训练语言模型及其语言处理能力的进步。这些模型有望执行类似人类的功能,例如回答问题、理解和分析输入、文本摘要、语言翻译等。

本文为对 DL 和 NLP 感兴趣的读者提供了几个关键要点。首先,它全面概述了DL和NLP的主要进展,突出了关键挑战和新兴趋势。这对于旨在充分了解各自领域最新进展的研究人员来说具有重要意义。其次,本文对深度学习和自然语言处理的潜在应用提供了见解,并强调了进一步研究以充分发挥其潜力的必要性。这对于想要利用这些技术开发新应用程序和解决方案的从业者很有用。最后,尽管 LLM 在生成连贯和流畅的语言方面具有先进的能力,但大型语言模型,如生成式预训练转换器模型 (GPT),使用统计学习技术在大量文本数据上进行训练,在理解和适当使用语言的语用方面仍然面临重大挑战,包括上下文、预设、隐含和社会规范。总体而言,该论文的主要内容使读者更好地了解该领域、它面临的挑战以及进一步研究和开发的潜在机会。

路线图:本文的组织方式如下:第二部分介绍了神经网络及其基本分类。第三部分重点介绍了神经网络的历史。第四部分揭示了 DL 背后的数学原理,以及它的众多变体和架构细节。第五节介绍了与上下文无关和与上下文相关的嵌入。第六部分总结了深度学习架构在文本分类、词性标记、命名实体识别(NER)、问答、语音识别和机器翻译等主要NLP领域的应用。第七部分围绕各种 DL 最先进的工具和资源。最后,在第 8 节中,我们概述了我们的研究和分析得出的结果,并提出了进一步调查的潜在途径。

2. 神经网络

术语“神经网络”和“人工神经网络”(ANN)在文献中经常被用作同义词。自然的人类神经系统是人工神经网络的模型,人工神经网络是复杂的信息处理系统。它像人脑一样处理信息。ANN的基本因素是其通过其新颖的结构进行信息处理的能力。它的结构由大量相互关联的信息处理单元组成,称为神经元,共同发挥作用以解决特定问题。人工神经网络与人类神经系统一样,通过插图学习。人工神经网络经过精心设计,可通过利用学习过程有效地解决特定问题。在人类神经系统中,学习是通过调整神经元之间已建立的连接中的突触来完成的。同样的过程也发生在人工神经网络中。感知器和乙状结肠神经元是人工神经元的两个重要类别。

2.1. 感知器

感知器最初由 Frank Rosenblatt 在 1950 年代和 1960 年代引入。如今,练习人工神经元的新模型是一种常见的做法

一般神经元的输入由几个二进制值组成x 1,x2, ...x 1,x2,...,而输出是一个单一的二进制值(Gibert Llauradó,2016),如图4所示。

神经元的二进制输出依赖于阈值(感知器偏差)。当加权总和jwjxj小于或等于阈值时,输出为 0。相反,当加权总和jwjxj超过阈值,则输出为 1。权重和阈值都是实数,代表神经元的参数。输出和阈值之间的精确代数关系如下:output=0,fjxjwjthreshold1,fjxjwj>threshold

  1. 下载 : 下载高分辨率图片 (59KB)
  2. 下载 : 下载全尺寸图片

图 4.感知器的结构。

2.2. 乙状结肠神经元

传统感知的主要问题是它的二进制输出,而在大多数情况下,我们可以通过对权重和偏差进行微小的改变来获得最佳解,这在传统感知器的情况下是不正确的。

结构上的乙状结肠神经元和感知器是相似的。然而,乙状结肠神经元的权重和偏差是可调节的,并且经过调整,使得输入的微小变化可能反映其相应输出的微小变化。感知器和乙状结肠神经元的输入是相似的,例如x1,x2, ...,x1,x2然而,感知器的输入仅限于 0 和 1,而 sigmoid 神经元允许 0 和 1 之间的任何值。例如,输入值 0.324 是 S 形神经元的有效输入,而对于感知器无效。类似地,乙状结肠神经元也明确定义了每个输入的权重以及全局偏差,b,但输出不是 0 和 1。在乙状结肠的情况下,神经元输出的计算方式为σ(wx+b) 函数,其中σ称为 S 形函数,用以下代数术语编写:(1)σ(Z)11+ez

下面的代数表达式更精确地描述了一般 S 形神经元的输出,包括输入、权重和偏差。(2)11+经验值(jwjxjb)

神经网络的标准学习算法被称为随机梯度下降反向传播对比散度(Basegmez,2014)。

2.3. 神经网络的结构

ANN的两种常见结构是(a)自动编码器和(b)受限玻尔兹曼机(RBM)(Basegmez,2014)。

2.3.1. 自动编码器

自动编码器通常也称为前馈神经网络。这些类型的网络具有从新输入中带出压缩、加密信息的潜力。他们倾向于通过应用压缩来重塑输入的原始数据。自动编码器从数据的内部结构中学习,而不是基于类标签进行训练。在自动编码器中,隐藏层负责检测功能。自动编码器通过从新输入中带出压缩的加密信息来消除过拟合问题。

2.3.2. 受限玻尔兹曼机

受限玻尔兹曼机 (RBM) 是一种生成随机神经网络,它利用学习过程来获取包含其输入集的概率分布(Rumelhart 等人,1986 年)。RBM 设计有两层神经元,即可见层和隐藏层。这些层中的每个神经元都与前一层中的所有神经元完全连接,而同一层中的神经元之间没有连接。RBM的主要目标是对可见层上输入数据的分布进行建模,如Arel等人,2010年,Hamel和Eck,2010年所述。组合多个成果管理制的一种方法是将一个成果管理制的隐藏层连接到后续成果管理制的可见层。这种链接机制允许以分层方式堆叠 RBM,从而能够创建深度信念网络或深度玻尔兹曼机。在 RBM 中,隐藏层通过无向边相互连接,从而促进了值在整个网络中的双向流动。RBM 是在对比散度算法的帮助下训练的。在图5中,以图形方式描绘了无向RBM。

调节RBM内计算的能量函数E(v,h)如下式(3)所示。(3)Ev,h=bvchhWv

  1. 下载:下载高清图片(122KB)
  2. 下载 : 下载全尺寸图片

图 5.无向 RBM 的图形描述。

3. ANN历史

弗兰基·罗森布拉特(Franky Rosenblatt)于1957年提出了感知器,最初被认为令人印象深刻。然而,在 1969 年,Minsky 和 Papert 发现感知器的行为是线性的并且无效。研究人员试图将线性结构变成非线性结构,并于 1964 年将 Aizerman、Brav.、Roz.1964 年提出了内核,但这也没有帮助人们。最后,他们用具有转发和反向传播风味的多层感知器解决了这个问题(Backprop - Rumelhart et al., 1986)。研究人员不断尝试,直到他们把它变得非常复杂,以至于它吓坏了人们。1992 年,Boser 等人(1992 年)提议使用 SVM 代替内核,并发表了许多文章,但这也没有帮助。之后在2005年(Ando et al., 2005)发现神经网络是多任务处理的优雅模型,因此SVM被NN取代。2009年,神经网络被深度神经网络取代。神经网络具有两个主要功能:灵活性,例如能够处理多任务处理、半监督学习、学习隐藏表示和不同层以及可扩展性。

浅层架构已被证明可以有效地解决许多简化的问题。然而,当它们应用于复杂的实际应用(如信号、语音和声音处理任务)时,在这些情况下,它们的有限建模和低表示能力会导致困难(Erhan et al., 2009)。浅层架构的局限性通过使用深层架构来规避。最流行的深度架构学习算法是反向传播(LeCun et al., 2015)。不幸的是,反向传播在实践中并不能很好地运行,因为学习网络由更高程度的隐藏层组成。反向传播的训练是在局部梯度下降算法的帮助下实现的,其主要特征是从随机的初始点开始。它的主要局限性是它经常在糟糕的局部最优条件下下降,并且随着隐藏层数量的增加,坏的几率会上升到更高的水平。深度架构的优化难度问题通过使用深度信念网络来解决,深度信念网络是 Hinton等人在2006年引入的一类深度生成模型。为了应对优化挑战,DBN采用了固有的逐层学习策略,有效地优化了网络权重,其时间复杂度与网络的大小和深度呈线性关系(邓,2011;邓,2014)。

3.1. 浅层结构架构

浅层架构通常由负责非线性特征或信号转换的单层组成,缺乏具有自适应非线性特征的多层。属于浅层架构类别的常见模型包括高斯混合模型 (GM)、HMM、CRF、最大熵 (MaxEnt) 模型、SVM、逻辑回归、核回归和具有一元隐藏层的多层感知器 (MLP)。这些模型有一个共同的属性,即具有相对简单的架构,该架构仅包括一个负责将原始输入或特征映射到特定于问题的特征空间的层,这可能不容易解释(邓,2014)。浅层架构在处理简单的问题时已经呈现出令人印象深刻的性能,但是当放在需要多级表示的更复杂的实际应用程序中时,此类架构的性能并不令人印象深刻,并且它们有限的模拟和表示能力可能会造成困难。

3.2. 深度架构

为信息处理和其他类型的学习而制定的系统,其学习基于深度架构,通常包含许多隐藏层,其中原始输入的转换以非线性模式进行。在深度架构中,下层的输出成为上层的输入。每个成功的深度学习方法的两个关键特征是(a)模型的生成性质,其中顶层涉及执行判别任务,以及(b)处理多级内部表示的能力,从大量未标记的训练数据中自动提取特征(邓,2014)。

4. 深度学习

自 2006 年以来,深度学习已成为机器学习研究中的一个新领域(Hinton 和 Salakhutdinov,2006 年)。在2006年之前,探索深度架构的参数空间带来了巨大的挑战。然而,DL算法的最新进展已经成功地解决了这个问题,在各个领域都取得了显着的突破(Du和Shanker,2009)。在文献中,深度学习有不同的名称,例如特征学习、深层结构学习和表征学习。表征学习的基本特征是它能够使机器处理原始数据并自动提取检测或分类等任务所需的表征(LeCun et al., 2015)。它是机器学习和人工智能的一个子领域,包括从人工神经网络 (ANN) 演变而来的一系列算法。

假设图像是 DL 的观测值,可以以多种方法呈现给模型。一些常见的可能包括 (a) 向量 (b) 边的集合和 (c) 特定形状的区域

如果一种表示机制对一项任务显示出有希望的结果,那么对其他一些任务也不一定也会显示出良好的结果。因此,一些表示机制对一项任务效果更好,而另一些则对其他一些任务(例如,面部识别或面部表情识别)效果最好。

学习深度学习网络权重的最常见和最广泛使用的算法是反向传播。

但是,反向传播性能与网络层的数量直接相关。网络分层越多,性能越差,反之亦然。为了提高其性能,使用了补充算法(Bengio,2009邓,2014,Glorot和Bengio,2010)。

深入研究深度架构的一个令人信服的理由是,具有众多参数的深度架构具有更有效地映射非线性函数的潜力(Du and Shanker,2009)。

值得注意的是,DL在广泛的自然语言理解任务中取得了显著的成果。这些结果备受期待,并显着推动了该领域的发展(LeCun 等人,2015 年)。架构在机器学习研究人员中声名鹊起的三个证据是(a)计算设备硬件单元的低价格和(b)GPU(图形处理单元)的创新,它扩展了芯片处理能力(邓,2011)和(c)最先进的开源库。

深度学习算法可以是无监督的,也可以是监督的。大多数 DL 算法的学习都是基于表示学习的。深度学习的主要优势在于它能够直接从未处理的输入中自主获取有意义的特征。图 6 说明了 DL 目标的概念描述。

深度学习方法的标志如下:

  1. 下载:下载高分辨率图片(477KB)
  2. 下载 : 下载全尺寸图片

图 6.DL目标的示意图。

  • 处理多层次表示

  • 非线性性质

  • 直接从原始输入中学习

  • 可扩展性

4.1. 卷积神经网络

卷积神经网络(CNN)是一种独特的多层神经网络,其结构有目的地用于有效地处理和分析二维数据,专门为涉及图像和视频的任务量身定制(Arel等人,2010)。看起来相似的几乎所有以前的神经网络和训练都是在反向传播算法的帮助下完成的(Arel et al., 2009)。(见图 7)。

1998 年,Bengio、Le Cun、Bottou 和 Haffner 在一篇论文中介绍了 CNNLeCun et al., 1998)。LeNet-5是他们最初的卷积神经网络,能够将数字分类为手写数字CNN模型是图像和视频处理项目最常用的主要领域,并已广泛应用于各种环境和广泛的应用。CNN具有提取有意义的特征和分析视觉数据的独特能力,对于视频分析甚至深度生成建模等任务至关重要。CNN的多功能性超越了计算机视觉,并已被证明在语音识别和其他领域很有用。这种广泛的应用凸显了CNN模型作为解决多个领域复杂问题的强大工具的重要性。CNN 的开发是为了解决图像数据的问题,但它们在给定顺序输入时也表现出色。卷积网络层表现出神经元的三维排列,类似于人类视觉的功能。这三层分别代表宽度、高度和深度,如图 8图 9 所示。这种区别特征使它们有别于常规神经网络。

卷积神经网络由两个组件组成:

  • 卷积层从输入中提取特征是卷积层的主要目的。

  • 全连接(密集)层:全连接层对来自卷积层的数据进行操作以生成输出

卷积层是 CNN 的构建块,大部分计算都是在其中执行的。在整个图像上使用滤波器/内核生成特征图的过程称为卷积,其中滤波器或内核本质上是特征检测器。通常使用 3 × 3 或 5 × 5 个过滤器(墨菲,2022 年)。

星号 * 符号经常用于表示卷积。表达式为:如果我们有一个由 X 表示的输入图像和一个由 f 表示的过滤器,那么(4)Z=Xf

在卷积过程中进行特征提取后,这些特征被转发到下一层,称为全连接层,以生成最终结果。由于卷积层的输出是二维矩阵,因此它被转换为一维矩阵。

全连接层在数据转换为一维阵列后接收数据。这些不同的值中的每一个都被视为构成图像的独特特征。全连接层对传入数据进行两次处理。

线性过渡用下面的方程(5)表示。(5)Z=WT.X+b其中 X 表示输入,W 是随机初始化权重的矩阵,b 是偏差(常量值)。式(6)描述了输入数据、随机初始化的权重矩阵和随机初始化的偏差矩阵的一般结构。(6)X=x1x2x3x4w=w11w12w21w22w31w32w41w22b=b1b2

仅通过线性变换无法捕获复杂的关系。因此,网络现在有一个额外的组件,使数据具有更多的非线性。激活函数是体系结构中这个新元素的名称。有几种激活函数,但下面列出了广泛使用的最常见的激活函数。

  • 线性函数

  • Sigmoid 函数

  • Tanh 函数

  • RELU 函数

  • 软最大功能

对于 sigmoid 函数,数学表达式如下式 (7) 所示。(7)fx=11+ex

图10表示CNN前向传播计算图

全连接层中的反向传播

  1. 下载 : 下载高分辨率图片 (177KB)
  2. 下载 : 下载全尺寸图片

图 10.CNN 前向传播步骤摘要。

该模型尝试在向后传播过程中调整参数,以提高整体预测的准确性。为了更新这些参数或进行成本函数优化,使用了梯度下降技术

在向后传播中,使用链式规则通过以下公式计算误差变化。(8)EW=EOOZ2Z2W

"EW“表示有关重量的误差的推导,”EO“表示有关输出的误差的推导,”OZ2“表示使用线性变换在全连接层中生成的输出的输出的推导,”Z2 W“表示在全连接层中生成的输出的导数,相对于权重矩阵。

下面提供的方程(9)用于更新权重矩阵中的值。(9)Wnew=Woldle一个rnngr一个teEW

卷积层中的反向传播

深度学习中的卷积层使用称为滤波矩阵的参数。该矩阵在卷积操作中起着关键作用,并在正向传播阶段使用随机值进行初始化。为了更新值,采用下面提供的公式: (10)P一个r一个metersnew=p一个r一个meterold(le一个rnngr一个tegr一个dentofp一个r一个meter)

要更新滤波矩阵,计算参数的梯度非常重要E/f.这个差值E/f 可以正式表示为:(11)Ef=EOOZ2Z2一个1一个1Z1Z1f

一次就具有E/f,该值用于更新原始滤波器值,如下式(12)所示。(12)f=fle一个rnngr一个teEf

优点:CNN能够直接从未处理的数据中提取模式,而无需任何额外的预处理。CNN对噪声和几何失真(包括比例、角度和形状的变化)的抵抗力是其显著优势之一。尽管存在这些像差,CNN 仍成功完成了涉及物体分割、识别和检测的任务。CNN从图像中提取空间信息的能力是另一个优势。这需要检查空间属性,通常称为像素的排列及其在图像中的交互。为了正确识别事物,定位它们的位置,并理解它们与视觉世界中其他事物的相互作用,这些空间品质是必不可少的。CNN利用参数共享,就像其他媒体组织一样。将单个过滤器应用于输入的多个部分以生成特征图。

反向传播属于判别训练程序系列。反向传播的主要局限性是:它忽略了内部输入数据的组成,并且只能模拟输出信号取决于输入的技术。如果输入向量由许多结构组成,这些结构可以由潜在变量(即特征)模拟,并且输出信号是一个类标签,该标签与这些特征相互关联,而不是与原始输入相关(Hinton,2007)。在图像处理的情况下,潜在变量可以对应于特定图像的大小、位置、形状和颜色。其次,为了学习目的,输入向量没有归一化,但是归一化可以提高性能。

在较新的研究工作中,研究人员已经将CNN用于各种机器学习任务,包括人脸检测,文档分析和语音检测(Arel等人,2010)。到目前为止,深度卷积网络被认为是处理图像、视频和语音数据的首选,而循环网络对于处理文本处理等顺序数据是可行的。

4.2. 深度神经网络

深度神经网络由堆叠在一起的多层非线性操作组成(Hinton和Salakhutdinov,2006)。DNN 继承了无监督学习方法和监督学习方法的特征。DNN 使用 RBMS 和自动编码器无监督方式提取特征,并使用有监督算法从无监督算法的结果中生成。

4.3. 深度信念网络或深度信念网络

深度信念网络(DBN)属于生成模型家族,最初由Hinton等人(2006)提出。DBN 本质上是一种具有更快速学习机制的 NN 架构,这使得 DBN 可能是最受欢迎的 NN 类。 DBN 是在 RBM 或自动编码器等简单网络相互堆叠时形成的(Arel 等人,2010 年,Hamel 和 Eck,2010 年,Hinton 等人,2006 年)。DBN 仅限于底部的单个可见层和许多隐藏层。DBN的示意图如图6所示。隐藏单元的工作是在训练阶段捕获高阶数据相关性,这些相关性在可见单元上密切关注,高层内部表示倾向于变得更加困难。DBN的学习机制依赖于一种分层无监督学习算法,称为贪婪方法,该算法由Bengio等人(2007)在他们的原始工作中首次引入。

DBN 的顶层有望解释更多对应于输入观测值“x”的非具象概念,而底层则从输入观测值“x”中提取次要特征。DBN的底层或下层用于提取简单的表示,然后在较高层中用于建模或构建复杂的概念或表示(Bengio等人,2007)。DBN的这种学习策略被称为贪婪学习策略,是DBN贪婪逐层建设性学习算法的设定基础。

Bengio 等人假设 DBN 的高音调性能取决于学习算法的三个全景图:(a) 贪婪的逐层预训练,(b) 使用无监督学习算法来维护来自输入的信息,最后 (c) 整个网络的微调(反向传播)。

DBN 可以公平地处理无监督、有监督和半监督数据。DBN的训练是在无监督的程序中逐层实现的(Glauner,2015)(见图11)。

4.4. 递归神经网络

RNN 属于人工神经网络家族。考虑到信息持久性,RNN 的内部结构包含单元之间的递归边。这使他们能够展示出推动历史的表现。RNN 通过使用内存来解决这一缺点,算法迭代的输出取决于先前迭代中派生的特征,特别是“远距离”先前迭代。RNNs的采用已经观察到广泛的任务,如语言建模Sutskever et al., 2011Yao et al., 2013)、问答(Dai et al., 2016Ture and Jojic, 2016)、语音识别(Serizel and Giuliani, 2016)、翻译(Luong et al., 2015)、图像字幕Karpathy 和 Fei-Fei,2015 年)、NERBonadiman 等人,2015 年)和文本生成(Sutskever 等人,2011 年)。图 12 说明了标准 RNN 的组件,包括输入层、隐藏层和输出层。

图12中,描绘了典型的前向递归神经网络的展开表示。输入层、隐藏层和输出层分别通过参数 U、W 和 V 连接,这些参数在训练阶段确定。在图12中,符号w(t)表示输入单词,通常具有与词汇量等效的维度,而y(t)表示输出层的输出。输出层的维度对应于输出类的总数,如Yao等人(2014)所解释的那样。具体而言,在命名实体识别 (NER) 任务的上下文中,这些层显示命名实体类之间的概率分布,而 h(t) 表示负责存储与输入向量关联的历史数据的隐藏层。以下公式控制 RNN 中的计算过程:(13)ht=σU.w(t)+W.ht1,t=1....T(14)yt=g(Vht)

  1. 下载 : 下载高分辨率图片 (133KB)
  2. 下载 : 下载全尺寸图片

图 12.具有单个隐藏循环层的典型前向循环神经网络模型。

  • w(t) 表示在任何给定时间步长 (t) 处输入层的输入,表示为单个向量。

  • 网络的存储单元 h(t) 被认为在任何时间步长 (t) 内对应于隐藏层。它的计算是根据当前输入状态和先前隐藏状态的输出完成的。

  • y(t) 表示时间步长 (t) 的输出,该输出是通过使用隐藏层输出和连接隐藏层和输出层的权重应用函数 g(Vh(t)) 获得的。

  • σr 表示负责设置第一个隐藏状态的初始值的函数。

深度 RNN 与典型的 RNN 类似,只是我们在每个时间步长上都有多个隐藏层。这提供了增强的学习能力。

典型和深度 RNN 模型可以在两种模式下运行:正向和双向。在双向 RNN 中,任何给定时间步长 (t) 的输出不仅取决于前面的元素 (N1) 但也在序列的后续元素 (N 1) 上。双向 RNN 是 RNN 的简单变体,本质上由两个相互堆叠的独立 RNN 组成。双向深度 RNN 的架构包括多个隐藏状态,在正向和向后方向上都具有递归边,如图 13 所示。+

为了训练 RNN,有两种常用算法:Hochreiter 和 Schmidhuber 于 1997 年引入的 LSTM,以及 Goller 和 Kuchler 在 Goller 和 Kuchler, 1996Hochreiter 和 Schmidhuber, 1997 中开发的时间反向传播 (BPTT)。现代 RNN 经常使用 LSTM,因为它们在检测长期依赖关系方面比传统 RNN 更成功。LSTM-RNN 使用与传统 RNN 不同的函数进行隐藏状态计算。N 1 层输出和当前层输入构成了 LSTM 中存储单元的参数,称为单元或“黑匣子”。保留什么和删除什么是由这些单元或“黑匣子”决定的。然后,它们将输入、前一层和当前内存组合在一起。

  1. 下载:下载高分辨率图像(224KB)
  2. 下载 : 下载全尺寸图片

图 13.具有三个隐藏层的双向深度递归神经网络

BPTT 被称为基于梯度的方法,用于训练 RNN。每个输出的梯度或更具体地说是向量值函数,取决于当前时间步长的计算以及 N 的计算1 个时间戳。例如,如果我们有兴趣找到 t =3 处的梯度,我们将需要反向传播 N2 个步骤,并将渐变相加。这个过程被称为“随时间反向传播”。

4.5. 长短期记忆

长短期记忆网络是一种递归神经网络,由Hochreiter和Schmidhuber于1997年提出(Hochreiter和Schmidhuber,1997)。它的设计旨在解决梯度消失问题,这是传统递归神经网络中经常遇到的挑战,阻碍了它们在顺序数据中学习长期依赖关系的能力。LSTM通过整合通过门控机制选择性更新的存储单元来实现这一点。输入门、忘记门和输出门组成了LSTM网络。在网络的信息流管理中,每个门都有不同的功能。输入门负责确定当前输入中的任何相关数据并将其放入存储单元中。另一方面,遗忘门选择需要从存储单元中删除或遗忘哪些数据。此外,输出门还调节应使用存储单元中的哪些数据来创建 LSTM 网络的输出(Khan 等人,2020 年)。

LSTM 网络具有显著的优势,可以掌握顺序数据中的长期依赖关系。这一特性使它们对各种任务非常有价值,包括但不限于语音识别、语言建模和手写识别。此外,在应用于这些特定任务时,与传统 RNN 相比,LSTM 表现出卓越的性能(Zhao 等人,2023 年)。

然而,LSTM 的局限性之一是它们的计算复杂性,因为它们比传统 RNN 具有更多的参数。这可能会使他们的训练速度变慢,并且记忆量更大。此外,LSTM 的门控机制在模拟某些类型的时间依赖关系(例如周期性模式)方面可能不那么有效(Zhao 等人,2023 年)。

  1. 下载 : 下载高分辨率图片 (255KB)
  2. 下载 : 下载全尺寸图片

图 14.嵌入的命名法。

4.6. 门控循环单元

GRU是(Chung等人,2014)引入的LSTM变体,旨在增强长期记忆并简化标准LSTM模型。在各个领域都取得了优异的成绩。GRU 将遗忘门和输入门组合到一个更新门中,是 RNN 变体中的热门选择。其主要目标是通过结合允许在网络内进行选择性内存更新的门控机制来解决传统RNN中观察到的梯度消失问题。GRU由两个主门组成:复位门和更新门。复位门确定忽略先前隐藏状态的哪些分量。另一方面,更新门控制当前输入和先前隐藏状态的保存程度(Phua 等人,2022 年)。

与 LSTM 相比,GRU 的主要优势之一是它们的计算效率,因为它们具有更少的参数并且可以更快地进行训练。由于它们的门控机制,它们还能够处理更长的数据序列,这使得它们对 NLP 和语音识别任务特别有用。但是,GRU 的局限性之一是,在某些需要精确长期内存存储的任务中,它们的性能可能不如 LSTM。此外,与LSTM相比,GRU的门控机制在模拟复杂的时间动力学方面可能不那么有效(Dey和Salem,2017)。

5. 词嵌入

词嵌入是一种用于将单词表示为固定长度连续实数向量的技术。通过将词汇表中的单词映射到潜在向量空间,它可以对具有相似上下文的单词进行分组。词嵌入是语言建模和特征学习的一种有价值的方法,因为它将单词转换为捕获其句法和语义信息的向量(Wang et al., 2020aZhang et al., 2018)。它也被称为文本矢量化/单词嵌入。单词嵌入的 DL 方法最近受到了相当大的关注(Bhattarai 等人,2023 年)。词嵌入有许多应用,特别是在 NLP 任务中,其中词嵌入作为输入数据或直接作为文本数据特征提供。词性标记、情感分类、机器翻译、NER、文本分析、句法分析、口语分析、问答、文本蕴涵和基于物联网的系统是可以从词嵌入中受益的一些核心领域(Li and Yang, 2018Wang et al., 2020b).从广义上讲,词嵌入分为两类:(a)上下文相关嵌入和(b)上下文无关嵌入,也称为经典嵌入(Wang et al., 2020a)。图 14 显示了嵌入方法的命名法。“经典”词嵌入是与上下文无关的方法,它使用主要基于浅层神经网络模型或共现矩阵的语言模型 (LM) 获取解释。与上下文无关的词嵌入相反,上下文相关方法根据使用该词的上下文信息发现同一类型单词的独特嵌入。

5.1. 上下文无关嵌入

这种嵌入已被证明可以在预训练后将隐藏的语义特征封装在大型数据集中。下面提供了流行的经典单词嵌入模型列表。

5.1.1. word2vec

Word2vec 是一个双层神经网络,可将单词“矢量化”以处理文本。它最初是由Mikolov等人(2013)提出的。Word2vec 是一组模型架构和优化技术,用于从大型语料库中学习词嵌入,而不是单一算法。Word2vec学习的嵌入在广泛的NLP任务中表现良好。它使用两种方法来生成输入文本的矢量。一个是连续的单词袋(CBOW),另一个是跳过语法(SG)模型(Church,2017)。这两种方法的训练都是使用神经模型实现的。CBOW 架构利用周围的单词来预测当前/目标单词。在这种架构中,单词的顺序并不重要,由于这种现象,它被称为单词模型袋。但是,word2vec 的另一个变体 SG 模型与 CBOW 模型相反。它试图预测给定当前单词/目标单词的上下文单词。两种模式都有其优点和缺点。在最初的研究(Mikolov等人,2013)中,作者提到SG模型非常适合小型数据集,而CBOW速度更快,并且为频繁出现的单词生成更好的表示。

5.1.2. 用于词表示的全局向量

词表示的全局向量 (GloVe) 是 Pennington、Socher 和 Manning 于 2014 年在斯坦福大学引入的 word2vec 模型的扩展版本(Pennington 等人,2014 年)。Global Vectors for Word Representation (GloVe) 是 Pennington、Socher 和 Manning 于 2014 年在斯坦福大学引入的 word2vec 模型的扩展版本。GloVe 是一种通过无监督学习生成词向量表示的新方法。与其前身不同,GloVe强调词向量空间中的线性子结构,并在训练时使用语料库中单词共现的全局统计数据(Pennington等人,2014)。这一独特的功能使其有别于同类型号。这与Mikolov等人提出的word2vec skipgram模型类似。2013 年,纳入了潜在语义分析 (LSA) 的各个方面,以收集全球统计数据,同时收集本地统计数据。在单词相似性任务中,与Word2vec相比,GloVe表现出了更好的性能。预训练的词向量可以从斯坦福GloVe主页访问,并为进一步研究提供了宝贵的资源(Mikolov等人,2013)。

5.1.3. 快速文本

FastText 是另一种流行的词嵌入和分类模型,属于 Facebook 研究团队(Bojanowski 等人,2017 年)于 2017 年提出的“经典”嵌入模型家族。该模型已经确立了自己在NLP社区中的领导者地位,并且可以成为经典嵌入模型的可行替代方案,该模型包括单词向量和其他功能。FastText 模型与 word2vec 有很大不同,因为向量模型 CBOW、SG 和 GloVE 认为每个项都是必须发现向量表示的最简单形式,而 FastText 认为项由 n 个字符组成,其中 n 的范围可以从 1 个字符到项的长度(Wang et al., 2020a). FastText 的新单词表示模型与 word2vec 或 glove 相比几乎没有优势。(a) 它对于定位不常见词的向量表示很有用。(b) 在较小的数据集上,字符 n-gram 嵌入比 word2vec 和 glove 性能更好。(c)经常与传统的词嵌入相结合,以提供子词特征(Zhang et al., 2015)。

5.2. 上下文相关嵌入

上下文相关嵌入模型在各种 NLP 任务上的表现优于经典嵌入模型,并记录了突破性的性能。与与上下文无关的词嵌入相反,上下文相关方法根据使用该词的上下文发现不同的词嵌入(Wang et al., 2020a)。随着研究的深入,上下文相关词嵌入的学习策略主要发展为两个亚组。一类称为基于 Transformer 的嵌入,而另一类称为基于 RNN 的嵌入。Transformer 系列由两个成员组成,即来自 Transformer 的双向编码器表示 (BERT) 和 ALBERT,而基于 RNN 的则由四个子模型架构组成。下面提供了基于上下文相关嵌入的嵌入模型列表。

5.2.1. 基于 Transformer 的嵌入

最近创建的基于 Transformer 的模型,如 BERT 和 ALBERT (A Lite BERT),已被证明可以有效地获得有关上下文化单词表示的知识。它最初是由Vaswani等人(2017)提出的。这种转换器模型使研究人员能够以新颖的方式处理文本数据。这些变压器在处理涉及序列到序列转换的任务时,可以轻松处理长程依赖关系。

5.2.1.1. BERT的

Devlin 等人(2018 年)建议将 BERT 作为一种微调手段。Google AI 的一种名为 BERT 框架的新语言表示模型利用预训练和微调来为各种任务生成尖端模型。BERT 通过对两个任务进行预训练来使用双向性:掩码语言模型和下一个句子预测。在 BERT 的预训练阶段,使用 Transformer 编码器来关注双向情况(Liu 等人,2020)。为了从每个输入序列中获取单个共享序列,BERT 使用特殊标记。BERT 通过微调过程,为问答、NER、抽象总结、情感分析、句子预测、文本生成、多义解析和语言推理等 12 项 NLP 任务产生了前沿成果。

5.2.1.2. 阿尔伯特

ALBERT 是一项新技术,旨在改善语言表征学习的最新进展。Lan et al. (2019) 提出 ALBERT 来克服传统 BERT 模型的局限性。传统的BERT基于下一句预测(NSP)目标,而ALBERT模型基于句子顺序预测目标。为了减少记忆使用并加快训练速度,ALBERT提出了两种参数减少方法(Liu等人,2020)。这两个参数是 (a) 因式分解嵌入和 (b) 跨层参数共享。此外,ALBERT 声称 NSP 目标过于简单,因为当通过链接不同文档中的部分来制作负面示例时,主题估计和一致性估计被合并为一项任务。

5.2.2. 基于RNN的嵌入

由于语言建模的最新发展,使用递归神经网络,现在可以将语言建模为字符的红利。神经语言学建模允许将语言建模为字符序列而不是单词的分布函数(Akbik et al., 2018)。

5.2.2.1. 上下文向量(CoVe)

McCann et al. (2017) 提出了上下文向量 CoVe) 架构。情境化词向量 (CoVe) 通过使用深度 LSTM 转换器将词向量情境化,该转换器来自为机器翻译构建的注意力序列到序列模型。因此,词嵌入依赖于整个输入序列。通过将这些词嵌入与 GloVe 嵌入连接起来,它们可以在后续任务中使用。

5.2.2.2. 上下文字符串嵌入

Akbik et al. (2018) 提出了上下文字符串嵌入,这些实现在 GitHub 上以 FLAIR 分发的形式提供。这是FLAIR支持的新一波嵌入,包括分层字符功能。Fliar 架构有两个独特的特征:(a) 单词从根本上被建模为字符序列,因为它们在没有任何明确概念的情况下被训练为单词是什么;(b)词语被周围的上下文所包围,这意味着同一个词语将根据其参照系而具有不同的嵌入(Akbik et al., 2018)。

5.2.2.3. 语言模型的嵌入

Peters et al. (2018) 提出了来自语言模型的嵌入 (ELMo) 架构。为了为后续任务创建特征,ELMo 连接了单独训练的从左到右和从右到左的 LSTM。ELMo 表示的上下文仅取决于使用它的完整句子,而不是每个具有固定嵌入的单词(Khattak 等人,2019 年)。由于使用了双向架构,嵌入集中在句子的 N+1 和 N 上1个字。Elmo 引入了一个清晰的显示,即获得的嵌入由任务的系数加权。这允许在一个任务上训练相同的架构,然后修改以用于一个非常不同的任务,结合共享的信息,同时专注于更精确的单词定义。

5.3. 词嵌入的目标

词嵌入试图通过将未标记语料库中的单词映射到连续值的低维空间来建立潜在的词汇和语用信息(Li and Yang, 2018)。

  • 减小维度

  • 用一个词来预测它周围的词

  • 必须捕获词间语义

6. NLP应用

在深度学习方法出现之前,大多数 NLP 任务都是使用机器学习技术解决的。这些传统方法依赖于具有高维和稀疏特征的训练模型,并且学习是线性进行的。这种线性学习技术的例子包括支持向量机、逻辑回归、CRF 等。

最近,NLP研究社区观察到,在文本分类、机器翻译、问答等众多NLP任务中,DL模型相对于传统ML方法的性能创下了纪录。DL在NLP的某些领域表现出色,促使NLP研究人员从线性模型转向非线性模型,即DL模型。DL 方法在大量的 NLP 任务中以卓越的性能占了上风。这些模型的主要优点是(a)它们从原始未标记数据中自动学习的能力,以及(b)不需要传统的、特定于任务的手工特征工程(Goldberg,2016)。

6.1. 语音识别

Graves等人(2013)研究了使用深度RNN模型进行音素识别的任务。他们使用TIMIT数据库来评估他们提出的模型的性能。在所提出的模型中,作者专注于端到端训练,这是一种RNN直接将声学序列映射到语音序列以进行学习的方法。在进行眩光实验后,所提出的深度长短期记忆RNN实现了17.7%的测试集误差,大大超过了最先进的方法。

Mohamed等人(2012)TIMIT语音语料库上采用了深度信念网络进行语音识别任务。所提出的模型是针对高斯混合模型进行测量的,高斯混合模型是语音识别任务中最先进的模型。在TIMIT数据库上针对CRF、递归神经网络和HMM等众多机器和DL模型测试了所提出的模型的性能,TIMIT核心测试集上报告的电话错误率为20.7%。

Mohamed等人(2009)已将DBN应用于声学建模。在TIMIT数据集上评估了模型性能,并显示出与其他最新模型相比的显着结果。在TIMIT数据集上记录的实现错误率约为23%。作者使用了DBN的两种变体。使用的两种架构是反向传播 DBN (BP-DBN) 和关联存储器 DBN (AM-DBN)。在所提出的模型中,检查了深度和隐藏层尺寸对模型性能的影响。

Mohamed等人(2010)扩展了他们之前在Mohamed等人(2009)中报告的工作。他们以前的工作是基于框架的训练,而在他们目前的工作中,采用的DBN方法是基于序列的训练。他们提出的方法基于判别性学习的思想,该学习共同优化了DBN权重以及状态到状态的转换和语言模型分数。在将基于序列的 DBN 模型与基于帧的 DBN 模型进行对比测试后,它的表现比较好,并报告了 77.81% 的准确率,超过了基线。

Dahl et al. (2012) 提出了用于大词汇语音识别任务的 DNN 模型。作者提出了一种新的训练算法来训练DNN。他们的新颖架构包括 HMM 和 DNN 的杂交,在其输出上产生分布。作者在具有挑战性的商业搜索数据集上测量了他们提出的模型性能与传统的上下文相关的高斯混合模型(GMM)-HMM。与基线方法相比,所提出的模型显示出 5.8% 和 9.2% 的不准确性改善

Lee等人(2009)的研究工作中,探索了卷积深度信念网络的使用,以完成对未标记听觉数据的语音识别任务。所提出的DBCN模型在TIMIT数据集上进行了测试。在所提出的模型中,典型的RBM在时间上被转换为卷积,使得隐藏单元彼此共享权重,从而使其能够在不同时间识别相同的特征。报告的结果表明,所提出的特征比基线特征有显著改进。

He et al. (2019) 提出了一种用于语音识别的端到端神经网络架构,该架构可以在计算资源有限的移动设备上实时运行。该系统使用卷积神经网络和递归神经网络的组合,并在多个基准数据集上实现了最先进的性能。作者使用了开源的语音命令数据集。该数据集由数千个不同的人说出的 35 个单词的 100,000 多个话语组成。这些词包括简单的命令,如“是”、“否”、“停止”、“开始”和“向下”,以及常见的家居用品,如“灯”和“电视”。作者使用语音命令数据集的一个子集进行实验,包括来自30个不同单词的约35,000个话语。他们将数据集分为训练集、验证集和测试集,其中 85% 的数据用于训练,5% 用于验证,10% 用于测试。作者还应用了各种数据增强技术来增加训练集的大小,并提高模型对不同类型的噪声和失真的鲁棒性。他们提出的端到端流式语音识别系统在 Google 语音命令数据集上实现了 6.4% 的单词错误率 (WER)。

Trinh Van 等人(2022 年)提出了一种基于 DL 的方法来检测音频信号中的情绪。他们的研究特别关注四种基本情绪。愤怒、喜悦、悲伤和中立。作者考虑了功能架构和 DNN 架构的各种组合,并使用 IEMOCAP(交互式情感二元动作捕捉)语料库数据集评估了所提出的方法的性能。评估指标包括准确度、精确度、召回率和 F1 分数。实验结果表明,所提方法在准确检测她的四种基本情绪方面达到了较高的准确率,优于现有的几种方法。作者进一步分析了不同特征类型和模型架构对识别性能的各自贡献,并讨论了其方法的局限性和未来可能性。总体而言,本文介绍了一种基于深度学习的情绪识别方法,并展示了其在人机交互、情绪计算和心理健康诊断等领域的潜在应用

Weng et al. (2023) 提出了一种基于 DL 的语音传输语义交流方法。作者开发了一个名为DeepSC-ST的系统,该系统将语音识别和语音合成作为传输任务。它们提取与语音识别相关的语义特征,以便使用联合语义通道编码器进行传输,并根据接收到的语义特征在接收器处恢复文本。这种方法在不影响性能的情况下显著减少了所需的数据传输量。作者还在接收器上执行语音合成,使用神经网络模块接收识别的文本和说话人信息以重新生成语音信号。为了使DeepSC-ST适应动态通道环境,作者确定了一个强大的模型来处理不同的通道条件。仿真结果表明,所提出的DeepSC-ST在低信噪比条件下优于传统通信系统和现有的基于深度学习的通信系统。采用无条件 Frechet 深度语音距离和无条件核深度语音距离作为两个定量指标。

表 1 总结了上面介绍的用于语音识别任务的 DL 模型。

表 1.基于DL的语音识别方法摘要。

参考数据结果
Graves等人(2013)深度RNN蒂米特误差17.7%
Dahl等人(2012)HMM 和 DNN 的杂交——错误度降低 5.8% 和 9.2%
Mohamed等人(2012)深度信念网络蒂米特报告的错误率为20.7%。
Mohamed等人(2010)采用的DBN方法基于基于序列的训练蒂米特77.81%准确率
Mohamed等人(2009)DBN的蒂米特误差 23%
Lee等人(2009)卷积深度信念网络蒂米特——
他等人(2019)所提出的系统使用卷积神经网络和递归神经网络的组合Google 开源语音命令数据集单词错误率为6.4%
Trinh Van 等人(2022 年)深度神经网络,如 CNN、CRNN 和 GRU交互式情感二元动作捕捉 (IEMOCAP) 语料库准确率为97.47%。
翁等人(2023 年)CNN 和 RNLJSpeech 数据集

6.2. 词性标记

词性标记的任务涉及使用由不同语言规则集组成的标记功能。这些标记器负责为给定文本中的每个单词分配适当的句法标签(Daud et al., 2016Horváth et al., 1999)。

Perez-Ortiz 和 Forcada (2001) 的研究工作可能是迄今为止报道的关于使用离散时间 RNN 进行 POS 标记任务的初步工作。所提出的方法不依赖于预先标记的数据。所提出的模型在宾夕法尼亚树库语料库上进行了测试,并将其性能与用 Baum-Welch 算法训练的隐马尔可夫模型进行了比较。Santos和Zadrozny(2014)提出了一种基于字符级信息解释而不是单词级的POS任务的深度神经网络方法。在英语和葡萄牙语语料库上测试了所提出的系统的性能。实验中使用的数据集是 Penn Treebank、WSJ 语料库和 Mac-Morpho 语料库。经过评估,所提出的系统报告英语准确率为97.32%,葡萄牙语准确率为97.47%。

Wang et al. (2015) 提出了一种基于双向 LSTM-RNN 的统一标记方案,用于 POS、NER 和分块任务的基本 NLP 任务。他们提出的BLSTM RNN不是基于人类工程的特征,而是使用一组与任务无关的特征和从所有三个任务的未标记数据中学习的单词嵌入。所提出的模型在多样化的训练数据集上进行训练,在测试了具有语言无关和单词嵌入特征的模型后,所有三项任务都显示出有竞争力的结果。POS、Chunk 和 NER 任务报告的结果分别为 97.26%、94.59% 和 89.64%。

Kabir等人(2016)的研究工作中,作者采用了DBN在孟加拉语中执行POS标记任务。作者在DBN训练期间考虑了形态学和背景特征。作者在语料库IL-POST(印度语言词性标签集)上评估了他们提出的模型。IL-POST语料库由Microsoft Research India作为IL-POST项目的附属产品提供。所提模型的f测量值为93.23%。

Passban et al. (2016) 报道了波斯语中基于 NN 的 POS 任务方法。这项工作的主要目标是处理词汇外的单词问题,并提高最先进的准确性。作者考虑了形态学和语境特征。在Bijankhan语料库(一个2.5M手动标记的语料库)上测试了所提出的模型的性能。报告的准确率为 97.4%,取代了所有基线方法。表 2 汇总了上面介绍的用于 POS 标记任务的 DL 模型。

Shin et al. (2023) 引入了一种新方法来解决韩语形态分析和 POS 标记中单词表面形式和基本形式之间的长度差异问题。他们提出的方法包括一种基于音节的多POSMORPH注释技术,该技术结合了POS标签和形态音节。这种方法允许同时进行 POS 标记和形态恢复,而无需基于字典的后处理。该模型是使用他的两层转换器编码器实现的,与基于大型语言模型的现有模型相比,该编码器的计算成本很高。实验结果表明,所提模型的性能与以往模型相当或更好。总体而言,这项工作为长度不匹配问题提供了创新的解决方案,在保持计算效率的同时实现了高性能。

周 和 Verma (2020) 进行了关于使用迁移学习提高 POS 标记准确性的研究,重点是南非荷兰语等低资源语言。作者集中分析了两种策略的效果:使用预先学习的单词嵌入和从根据荷兰数据训练的POS标记器转移网络权重。他们分别和一起研究了这些技术的效果。根据研究结果,使用荷兰POS标记器,迁移学习导致了性能的适度提高。此外,当使用未对齐或对齐的预训练嵌入时,性能显着提高。令人惊讶的是,即使使用跨语言迁移学习,未对齐和对齐嵌入之间的性能差异也不显着。这项研究表明,迁移学习和预训练嵌入可能有助于改善低资源语言中的 POS 标签。

Chang et al. (2022) 专注于提高汉语古代研究中自动分词和 POS 标签的准确性。为了实现这一点,他们使用了深度学习技术和预训练的语言模型。具体来说,作者使用了预训练的语言模型SIKU-RoBERTa。它是在 SiKuQuanShu 的高质量全文语料库和他的 ZuoZhuan 语料库的一部分上训练的,该语料库已经有分词和他的 POS 标记。这些数据集用于构建基于BERT的深度网络模型,以执行分词和POS标记实验。此外,我们比较了不同经典NLP网络模型的性能。结果表明,在训练前,SIKU RoBERTa语言模型在分词方面取得了93.87%和POS标签88.97%的优异整体预测准确率,表现出优异的整体性能。这项工作突出了 DL 技术和预训练语言模型(例如他的 SIKU-RoBERTa)在显着提高中国古代研究领域自动分词和 POS 标记准确性方面的潜力。

表 2.基于 DL 的 POS 方法摘要。

参考数据结果
Perez-Ortiz 和 Forcada (2001)离散时间RNN宾夕法尼亚树岸——
桑托斯和扎德罗兹尼(2014)深度神经网络Penn Treebank WSJ 语料库和 Mac-Morpho 语料库英语准确率为97.32%,葡萄牙语准确率为97.47%
Wang等人(2015)双向 LSTM-RNN—-POS 97.26%、94.59% 和 89.64%
Kabir等人(2016)DBN的IL-POST语料库F-测量值为93.23%。
Passban 等人(2016 年)神经网络Bijankhan语料库准确率为 97.4%
Shin 等人(2023 年)变压器(EN) + BiLSTM世宗POS标记语料库F1得分为96.12%
周和维尔玛 (2020)e BiLSTM 与迁移学习荷兰 Alpino Treebank 和南非荷兰语 AfriBooms Treebank准确率为93.53%和93.21%
Chang 等人(2022 年)四库-RoBERTa左传88.97% 用于 POS 标记

6.3. 命名实体识别

作为信息提取 (IE)、机器翻译和其他 NLP 任务的一个组成部分,NER 仍然至关重要。NLP 工具和应用程序最重要的步骤和基础之一称为 NER,也称为“实体识别”、“实体分块”、“实体提取”和“概念提取”。(Keretna 等人,2015 年,Shaalan,2014 年)。将专有名词识别和分类为预设类别,如人物、地点、组织、时间陈述、金额、货币价值等,通常被认为是一个连续的标签任务(Sundheim,1996)。它被认为是典型的 NLP 活动(如对话、问答和语音搜索)中至关重要的第一步(Lu et al., 2015)。NER在组织和从文本中提取有见地的信息方面遇到了不可或缺的一部分(Seok et al., 2016)。

Hammerton (2003) 研究了 LSTM 在英语和德语文本中作为 NER 的 RNN 变体的使用。在几个数据集上进行了实验。所提出的模型明显优于德语的基线模型,而英语的性能略高于基线性能。英文数据报告的准确率、召回率和F值分别为76.37%、66.27%、70.96%。

Chiu和Nichols(2015)的研究工作中,研究了LSTM和CNN在NER任务中的联合使用。建议的框架会自动说明单词和字符级别属性,并且不依赖于预配置的功能。使用两个数据集来衡量所提出的混合模型的性能:CoNLL-2003 数据集和 OntoNotes 数据集。所提出的系统超越了以前所有最先进的系统,例如前馈神经网络 (FFNN),并记录了新的最先进的 F1 值。CoNLL-2003 数据集上报告的 F1 分数值为 91.62%,而 OntoNotes 上报告的 F1 分数值为 86.28%。

Lample et al. (2016) 提出了一种基于 LSTM 与 CRF 输出联合使用的新神经网络架构。所提出的模型学习机制基于两种类型的学习方法。首先,它能够通过监督方式训练来收集基于字符表示的单词信息,而在第二种情况下,所提出的模型以无监督的方式运行,并且从未注释的语料库中学习单词表示。用英语、荷兰语、德语和西班牙语四种语言检查了所提出的模型的有效性,并在这些语言中设定了新的最先进的性能。英语、德语、荷兰语和西班牙语报告的 F1 分数值分别为 90.94%、78.76%、81.74% 和 85.74%。

表 3.基于DL的NER任务方法摘要。

参考数据结果
哈默顿 (2003)LSTM公司使用的语料库是:
(a) 路透社数据集,(b) 英语语言数据集第 1 卷,以及
(c) 欧洲语料库倡议多语言数据集第 1 版
英语数据准确率为76.37%,召回率为66.27%,F值为70.96%
邱和尼科尔斯 (2015)LSTM 和 CNN 的联合使用CoNLL-2003 数据集和 OntoNotes 数据集CoNLL-2003 F1 为 91.62%,而 OntoNotes 的 F1 值为 86.28%。
Bonadiman等人(2015)深度神经网络 (DNN)Evalita 2009 基准数据集准确率为85.03%,召回率为82.64%,F1值为83.80%。
Lu等人(2015)扭曲循环网络——中文:74.39%
F1 英文:86.20% F1
Lample等人(2016)LSTM 与 CRF 输出联合使用—-英语、德语、荷兰语和西班牙语的 F1 分数值分别为 90.94%、78.76%、81.74% 和 85.74%。
Liu等人(2017)LSTM 网络i2b2F1得分 94.37%
Haq 等人(2022 年)格鲁、LSTM、RNNUNER、IJCNLP、Jahangir 等人。系统能够获得的最高 f- 测量值分别为 UNER 数据集的 87.36%、Jahangir 等人数据集的 83.73% 和 IJCNLP 数据集的 66.90%。
Khan 等人(2022 年)通用共级报告(CRF)UNER-I、IJCNLP、Jahangir等人。将 F1 分数提高 1.5% 至 3%。
Yang 等人(2022 年)BERT-星变压器-CNN-BiLSTM-CRFMSRA中文数据集和微博中文数据集F1 评分 94.78 (MSRA)
F1 评分 62.06 (微博)
孙与李 (2023)阿尔伯特WeiboNER、MSRA 和 CLUENER2020 数据集F1得分94.78%(MSRA)
F1得分71.42%(微博NER)
F1得分82.47%(Cluener)

Bonadiman等人(2015)的研究工作中,作者探索了DNN在意大利命名实体识别任务中的使用。作者在 Evalita 2009 基准数据集上测试了所提出模型的性能。所提出的 DNN 的工作基于上下文特征,对于成本函数估计,其计算基于词级对数似然。此外,所提出的模型还采用了一种新的循环反馈方法,以确定输出标签之间的关系是否以正确的方式建模。进行 10 倍交叉验证实验后报告的精密度、召回率和 F1 值分别为 85.03%、82.64% 和 83.80%。

Lu et al. (2015) 用中文提出了一个用于 NER 任务的扭曲循环网络,但所提出的模型在英语中也表现良好。对于中文,将所提出的系统的性能与斯坦福ENR系统进行了比较,并报告了74.39%的F1值,而对于英语,将所提出的系统的性能与伊利诺伊州NER系统以及斯坦福ENR系统进行了比较,并报告了86.20%的F1值。

Liu等人(2017)探索了LSTM网络在生物医学命名实体识别中的应用。为了对他们提出的模型进行性能评估,作者对2010年、2012年和2014年i2b2的三个语料库进行了实验。在2010年i2b2医学概念提取数据集上测试所提出的LSTM模型时,它报告了85.81%的微平均F1分数的最佳数据,同样,在2012年i2b2临床事件检测上测试时,报告值为92.29%,最后在2014年i2b2去标识化数据集上测试,它报告的F1得分为94.37%。从结果数据中可以看出,新系统与所有以前的系统相比具有竞争力。表 3 总结了上面介绍的 NER 任务的 DL 模型。

最近,Haq 等人(2022 年)为资源匮乏的语言乌尔都语提出了一个基于 DL 的系统。作者使用乌尔都语字符卷积和POS功能以及单词嵌入来提高模型性能。系统能够获得的最高 f- 测量值分别为 UNER 数据集的 87.36%、Jahangir 等人数据集的 83.73% 和 IJCNLP 数据集的 66.90%。

Khan 等人(2022 年)提出了一种称为 NER 的乌尔都语方法,该方法将 CRF 与语言相关和语言无关特征的组合相结合。这些功能包括词性标签和单词上下文窗口。此外,研究人员还开发了他全面的乌尔都语NER数据集,称为UNER-I。它由许多手动注释的命名实体类型组成。通过实验评估所提方法的有效性和数据集的有用性。结果表明,所提方法优于基线方法,在UNER-I数据集和现有数据集上均提高了1.5%-3%的F1值。此外,丰富的数据集已被证明对于监督学习环境中的训练和预测很有价值。

Yang et al. (2022) 强调了早期命名实体识别模型在处理多词含义问题方面的局限性,因为它们专注于单个单词和字符向量。为了解决这个问题,作者提出了一种名为BERT-Star-Transformer-CNN-BiLSTM-CRF的新模型,该模型使用BERT动态生成字符向量,并利用轻量级Star-Transformer模型进行局部特征提取,并利用CNN-BiLSTM联合模型进行全局特征提取。与传统的 Transformer 模型相比,该模型在精度、召回率和 F1 值方面取得了显着提高,同时计算效率也提高了近 40%。

Sun and Li (2023) 提出了一种新的中文实体识别技术,解决了词汇边界模糊的问题。他们的方法使用多头注意力和各种方法,例如用于词向量提取的 Word2vec、用于边界向量提取的 HMM、用于字符向量提取的 ALBERT,以及用于融合这些向量的前馈注意力机制。包括组件。为了进一步增强表示性,我们使用BiLSTM从合并的向量中提取特征,并应用多头注意力来揭示文本特征中的潜在单词信息。通过对WeiboNER、MSRA和CLUENER2020数据集的评估,证明了该算法的有效性,显示出命名实体检测性能的提高。

6.4. 文本分类

文本分类也称为文本分类,是自动将预定义类别分配给以自然语言编写的自由文本文档的任务。它可以提供文档汇编的抽象视野,并允许在各种现实世界问题中的重要应用。

以下是文本分类的常见示例。

  • 垃圾邮件过滤文本分类任务的广泛实际应用是垃圾邮件间谍,其中电子邮件内容被分类为垃圾邮件和非垃圾邮件的基本类别。

  • 主题分类:主题分类也是文本分类的一个众所周知的应用。主题分类的目标是处理不同类型的文档和类别。

  • 情感分析:它也是最流行的文本分类示例,用户通常有兴趣确定产品或电影评论中的情绪。在情感分析中,相应的类标签将参考文本的情感情感解释为“积极”或“消极”。

  • 语言识别:它涉及源文本语言的识别和分类。

  • 体裁分类:它涉及对虚构故事的文学体裁进行分类。

Clark et al. (2003) 报告了一项关于通过神经网络进行电子邮件分类的初步研究。作者通过实验表明,与传统分类器相比,神经网络表现良好。作者在两个公开可用的(PU1、LingSpam)和一个具有 256 个特征的私有数据集上测试了他们的基于多层感知器的 LINGER 分类器,并使用了标准的精度、召回率和 F1 测量评估矩阵。作者将他们提出的系统与朴素的基于海湾的分类器进行了测量,并显示出卓越的结果。

Dos Santos和Gatti(2014)提出了一个深度卷积神经网络,用于解决推文和电影评论中的情感分析问题。他们的 DCNN 模型将字符级信息扩展到句子级,并使用字符级、单词级和句子级表示。作者使用两个数据集评估了该模型的性能:斯坦福情感树库(SSTb),由电影评论组成,以及斯坦福Twitter情感语料库(STS),其中包含Twitter消息。所提模型在SSTb数据集上实现了85.78%的准确率,将任务视为二元分类。在STS数据集上,该模型达到了86.4%的准确率,证明了他的DCNN模型在情感分析中的有效性。

Severyn 和 Moschitti (2015) 采用 DCNN 对 Twitter 文本进行情感分析。作者在Semeval-2015基准数据集上测试了他们提出的模型,包括短语级别和消息级别。在他们的工作中,作者提出了一种新的CNN权重初始化模型。作者提出了该模型,分三个阶段完成推文情感分析任务。所提出的模型首先在神经语言建模的帮助下初始化词嵌入,其次是进一步完善词嵌入,所提出的模型利用CNN,在最后阶段,前两个阶段的输出用于初始化网络。对于短语级任务,所提出的模型报告了新的最先进的结果,而在消息级,结果可以放在第二位。

任等人(2016)提出了一种基于上下文的神经网络模型,用于推文中的情感分析任务。所提出的模型利用了上下文化特征以及相关推文的单词嵌入。作者在18000条推文的数据集上评估了他们基于CNN的情境化模型的性能。最佳结果值记录为 91.33%,显著优于基线方法。

Irsoy和Cardie(2014)探索了深度双向RNN模型在情感分析任务中的应用。作者在由 535 篇新闻文章和 11,111 个句子组成的 MPQA 1.2 语料库上测试了深度双向 RNN 模型与 CRF 方法的性能。结果表明,双向DRNN模型的性能明显优于基线方法。

Montavon(2009)探索了使用基于深度卷积神经网络的时间延迟神经(TDNN)网络来完成口语识别任务。作者提出了一个联合使用CNN和TDNN的模型,其中CNN的卷积层被用作特征提取器。所提出的模型在两个数据集(即 VoxForge 和 RadioStream)上针对基于浅层架构的模型进行了评估。这两个数据集都由多语言语音样本组成。在进行眩光实验后,发现所提出的模型比基线模型成功5%-10%。

Mathur等人(2015)采用带有门控循环单元的RNN来完成从文本文档中识别语言的任务。在 Discriminating between Similar Language (DSL) Shared Task 2015 数据集上评估了所提出的模型性能,并根据多项式朴素贝叶斯和逻辑回归进行了测量。报告的结果为 95%,是迄今为止报告的最佳结果。

Bartz et al. (2017) 引入了一种用于语言识别的混合卷积递归神经网络模型 (CRNN),该模型结合了 CNN 和 RNN 架构的优势。作者通过严格的实验证明了该模型在各种情况下的有效性。该实验包括一个大型数据集,其中包含从各种来源(例如YouTube和他的欧盟音频存储库)收集的超过1508小时的音频数据。报告的结果证明了该模型的性能,达到了惊人的 96% 的准确率。

Semberecki 和 Maciejewski (2017) 提出 LSTM 作为深度 RNN 的扩展,用于文档主题分类的任务。拟议的LSTM系统在从维基百科收集的数据上进行了测试,代表了七个主题类别。作者将他们提出的方法与词袋方法进行了比较,在这种方法中,特征向量是通过将文档表示为单词的频率来构建的,而作者提出的方法分两步完成。在第一步中,作者制作了 word2vec 工具将单词转换为相应的向量,并在制作向量后使用这些向量作为序列将它们表示为特征。评估中使用的数据包括来自维基百科的英语文本,包括艺术、历史、法律、医学、宗教、体育和技术等七种体裁,每个类别有 1000 篇文章。结果显示,所有七个类别的平均精度值均为 86.21%,比基线有所改善。

Johnson 和 Zhang (2014) 利用监督 CNN 的使用来完成文本分类任务。作者用线性核测量了他们提出的监督CNN模型与SVM。评估中使用的数据集是IMDB电影评论,Elec和RCV1。所提出的模型以约0.5%的利润率跑赢了基线。

Johnson 和 Zhang (2015) 采用基于半监督的 CNN 进行主题分类和情感分类任务。他们提出的方法的新颖性存在于词嵌入的学习方案中。嵌入学习分两步完成,因此在第一步中,它从未标记的数据中学习嵌入,然后从标记的数据中学习嵌入。作者在IMDB、Elec和RCV1数据集等三个数据集上评估了他们提出的半监督CCN模型,并证明所提出的模型取代了基线SVM和监督CNN模型,在所有三个数据集上都有约0.9%的余量。

Prottasha 等人(2022 年)探讨了由于标准化标记数据的可用性有限,孟加拉语 NLP 领域在情感分析中遇到的困难。为了应对这一挑战,作者利用他的BERT的迁移学习能力,并将其与CNN BiLSTM模型集成,以改善情感分析中的决策。他们还研究了迁移学习在经典机器学习算法中的应用,以促进性能比较。此外,他们的研究验证了各种词嵌入技术,如Word2Vec、GloVe和fastText,并将它们的性能与BERT迁移学习方法进行了比较。结果表明,所提出的方法在孟加拉语情感分析的二元分类中取得了最先进的结果,优于所有其他研究的嵌入和算法。这项研究强调了 BERT 的迁移学习能力和深度模型集成的潜力,以改善资源不足和可用标记数据有限的语言的情感分析。

Bensoltane 和 Zaki (2022) 提出了一种使用预训练语言模型进行基于阿拉伯语方面的情感分析 (ABSA) 的迁移学习方法。本文提出的模型基于 AraBERT,即 BERT 的阿拉伯语版本。该研究的目标是消除对繁琐的预处理和特征工程任务的需求,并消除对字典等外部资源的依赖。作者研究了两种变体:方面概念提取(ATE)和方面类别检测(ACD)。我们使用微调和基于功能的方法。该实验是使用他的 ABSA 参考数据集进行的,其中包含阿拉伯语的新闻项目。主要结果表明,微调更适合资源受限的场景,下游层的微调可以提高默认微调的BERT模型的性能。与基线方法和先前的研究相比,所提出的模型表现出优异的性能,导致 ATE 任务的整体改进超过 6%,ACD 任务的总体改进超过 19%。

Li et al. (2023) 引入了一种创新的基于图形的模型,称为基于 GNN 的双滑动窗口模型 (TSW-GNN),该模型专为文本分类而设计。与构建语料库级图形结构的现有基于图形的模型相比,TSW-GNN 模型为每个单独的文本提供了单独的文本级图形结构,包括动态全局和局部滑动窗口。生成图表。局部窗口在文本中移动以建立本地单词关联,而动态全局窗口遍历文本以确定单词边缘权重并包含更丰富的全局信息。通过评估七个基准数据集,TSW-GNN 模型在分类准确性方面优于最先进的模型。通过集成本地和全局上下文并最大限度地减少内存使用,所提出的模型消除了现有基于图的模型的局限性。作者在SST1、SST2、TREC、MR、R8、R52和Ohsumed等不同数据集上进行了实验。结果表明,TSW-GNN模型在SST1和SST2上的平均精度提升分别为1.69%,最大精度提升分别为6.21%和3.4%。此外,在MR数据集上测试时,TSW-GNN模型的最大准确度提高了5.17%,平均准确度提高了3.4%。对于TREC数据集,TSW-GNN模型的准确率平均提高了2.62%,最大提高了5.4%。最后,对于Ohsumed数据集,TSW-GNN模型的平均精度提高了7.16%,最大提高了22.36%(见表4)。

表 4.基于DL的文本分类任务方法摘要。

任务数据结果
克拉克等人(2003)神经网络电子邮件分类PU1、LingSpam PU1、LingSpam的——
Tzortzis 和 Likas (2007)\DBN的垃圾邮件检测Enron 1、Spam Assassin 和 Ling Spam——
多斯桑托斯和加蒂 (2014)深度卷积神经网络推文中的情感分析(a) 斯坦福情感树库 (SSTb) 和 (b) 斯坦福 Twitter 情感语料库 (STS)(a) 85.78% 准确率
(b) 86.4% 准确率
Severyn 和 Moschitti (2015)DCNN的Twitter 文本的情感分析2015年Semeval——
任等人(2016)基于上下文的神经网络模型Twitter 文本的情感分析18000条推文的数据集最佳结果值记录为 91.33%
伊尔索伊和卡迪 (2014)深度双向 RNN 模型情绪分析MPQA 1.2 语料库——
蒙塔文 (2009)CNN和TDNN的联合使用口语识别VoxForge 和 RadioStream比基线模型成功率高 5%-10%
Mathur等人(2015)带门控循环装置的 RNN语言识别95% 准确率
Bartz等人(2017)混合卷积递归神经网络模型语言识别欧盟语音库报告的最佳结果是 96%。
Semberecki和Maciejewski(2017)LSTM公司文档分类来自维基百科的七种体裁的英文文本平均精度值 86.21%
Johnson 和 Zhang (2014)美国有线电视新闻网(CNN)文本分类(a) IMDB 电影评论,
(b) Elec,以及 (c) RCV1
以约0.5%的利润率跑赢基线
Johnson 和 Zhang (2015)基于半监督的CNN主题分类和情感分类(a) IMDB 电影评论,
(b) Elec,以及 (c) RCV1
在所有三个数据集上都以 0.9% 的余量优于基线模型
Prottasha 等人(2022 年)BERT的迁移学习CNN-BiLSTM情绪分类2015 年印度语言情感分析 (SAIL)精度 0.946,召回率 0.949,F1 分数 0.941
Bensoltane 和 Zaki (2022)阿拉伯特情绪分类阿拉伯新闻帖子的 ABSA 数据集F1得分 87.1%=
Li 等人(2023 年)基于 BERT 文本 GNN 的模型 (TSW-GNN)。文本分类SST1、SST2、TREC、MR、R8、R52 和 Ohsumed 基准数据集上的测试准确率(%)
48.51 ± 0.5 90.20 ± 0.2 80.26 ± 0.6 99.00 ± 0.1 71.36 ± 0.3  
98.04 ± 0.8 95.68 ± 0.6 

6.5. 机器翻译

机器翻译是利用自动化技术将给定文本从一种自然语言转换为另一种自然语言的过程。由于人类语言固有的模糊性和灵活性,机器驱动的机器翻译被认为是一项具有挑战性的任务。目前,机器翻译采用的最普遍的方法是 (a) 基于规则的方法,(b) 基于机器学习/统计的方法,以及 (c) 基于 DL 的方法。

基于规则的方法也称为经典机器翻译。在经典方法中,假设规则用于将文本从源语言转移到对象语言。这些规则通常由语言专家制定,可以在词汇、句法或语义层面发挥作用。基于规则的方法已经证明其准确性非常接近人类。此外,它们缺乏效力和可管理性。

这些方法建立在机器学习方法的基础上,并实践现有的数值模型,从而产生了良好的灵活性和耐久性。如果没有不适当的人为干预,解决方案被证明更具指责性。此外,与基于规则的方法相比,在获取内容和使用机器学习方法创建注释集所需的过程方面,创建注释数据集更便宜、更容易。

如今,基于 DL 和基于 AI 的技术被广泛用于 NLP 任务(Grace 等人,2017 年)。Venugopalan et al. (2014) 提出了一种统一的深度神经网络架构,利用卷积和递归网络将视频翻译成句子。作者使用卷积网络对视频的每一帧进行建模。卷积网络在大约 1.2M 加上分类标记的图像上进行训练。关于RNN的使用,它已被用于通过对来自Flickr和COCO的100,000多张图像进行预训练来表示语义状态和单词序列,这些图像并附有相应的句子标题。在COCO上训练的模型分别产生了84.8%、38.98%和22.34%的准确率。

最近,谷歌推出了一种名为神经机器翻译(NMT)的新型自动机器翻译系统,以克服其传统的基于短语的翻译系统的局限性(Wu et al., 2016)。拟议的NMT系统基于两个循环网络。第一个 RNN 的工作是使用输入文本序列,而第二个 RNN 生成翻译的输出文本。

Deselaers等人(2009)提出了一个基于DBN的阿拉伯语-英语翻译系统。所提出的系统基于两个独立的生成学习模型的学习,每个输入和目标输出一个,以便最终将两个模型组合成一个源到目标的编码和解码系统。拟议的系统在10,084个阿拉伯人名的语料库上进行了测试。所提出的系统的性能是根据基于通用报告格式和ME的系统来衡量的。结果表明,所提出的基于DBN的系统将整体结果显著提高了1%绝对值。

Cho et al. (2014) 引入了一种称为神经机器翻译的新型翻译系统,以取代传统的基于短语的翻译系统。拟议的系统基于两个RNN的使用。作者建议的系统与基于短语的SMT进行了比较,后者在开发和测试集上分别获得了30.64和33.3的BLEU分数。另一方面,所提出的系统在测试集和开发集上分别获得了31.20%和33.87%的BLEU分数。

Andrabi 和 Wahid (2022) 探索了机器翻译的持续发展,跟踪了从简单的单词替换到更高级的数据驱动方法(如统计和神经机器翻译)的进展。在这项研究中,作者使用基于神经网络的深度学习技术进行英语到乌尔都语的翻译。为了训练这个系统,他们使用了一个包含大约30,923个句子的平行语料库,包括新闻文章和日常短语。所提出的模型已经在 70:30 Split 进行了训练和测试,并使用各种自动评分指标评估其性能,包括与 Google 翻译的比较。结果表明,该模型的平均BLEU得分为45.83,证明了其有效性。

Pandey 等人(2022 年)通过引入基于 DL 的神经翻译方法进行端到端翻译,展示了机器翻译方面的一项非凡创新。他们提出的模型包含门控循环神经网络的三个编码器层和三个解码器层,以及一个用于改进翻译过程的密集层。此外,作者还介绍了一种新技术,通过使用双向GRU反转源语言单词来进一步提高翻译性能。与传统的基于规则的翻译方法相比,使用 BLUE 和 WRE 分数对翻译输出的评估显示出显着改进。

Wang 和 Wang (2022) 强调了 DL 技术在开发专门为日语设计的机器翻译系统方面的应用。研究人员承认日语的独特语言特征以及创建有效翻译系统的相关困难。为了应对这些挑战,他们提出了一种为日语翻译量身定制的编码-解码神经网络结构。他们考虑了日语和中文之间的相似性,以及英语翻译中常用的神经网络架构。通过增强隐藏层单元的计算和优化训练模型,他们成功实现了全面的日语机器翻译系统。通过日文和中文之间的相互翻译对系统的性能进行了评估,在采用最佳模型融合技术后,该系统的BLEU值为39.52,令人印象深刻。

Dare et al. (2023) 讨论了专门用于中文和普通话的无监督机器翻译系统的开发。这两种语言没有丰富的并行翻译数据,因此作者通过创建一个包含约100万个普通话句子的新语料库来应对这一挑战。他们进行了详尽的研究,考虑了不同的模型架构、代币化方案和嵌入结构。研究人员通过实验确定,最有效的模型是使用基于字符的标记化构建的,并实现了 Transformer 架构。该模特的BLEU成绩优异,汉译粤语翻译为25.1分,粤语译中文翻译为24.4分。本文全面介绍了作者的研究过程,并详细描述了所进行的实验及其结果。

Vashistha 等人(2022 年)探索了将主动学习与 Joey NMT 工具包一起使用,以提高神经机器翻译 (NMT) 对缺乏监督数据的低资源语言的准确性。实现了两个模型驱动的采集函数,以选择最有益的未标记数据来获取标签。该研究使用基于 transformer 的 NMT 系统将英语翻译成印地语,与基线和完全训练的模型相比,主动学习技术提高了翻译质量。研究结果表明,主动学习可以帮助NMT模型尽早收敛,并提高翻译系统的整体质量。该研究使用BLEU指标来评估系统结果,基于主动学习最不可信度的模型获得了24.54的最高BLEU分数(见表5)。

表 5.基于 DL 的机器翻译任务方法摘要。

数据结果
Venugopalan等人(2014) 深度神经网络架构100K+ Flickr 和 COCO 图片 (a) COCO 的准确度分别为 84.8%、38.98% 和 22.34%
(b) Flickr30k 的准确度分别为 85.67%、38.83% 和 19.72%。
Deselaers等人(2009) DBN的10,084 个阿拉伯人名的语料库将整体结果提高 1% 绝对值。
Cho等人(2014)RNN系列31.20% 和 33.87% BLEU 得分 
安德拉比和瓦希德 (2022)LSTM公司30923个平行句子的语料库,涵盖宗教、新闻和常用句子三个领域BLEU得分为45.83。
Pandey 等人(2022 年)双向 GRUBLEU得分为42.28。
王和王 (2022)LSTM公司中信研究院与JST平行语料库BLEU值为39.52。 
Dare 等人(2023 年)RNN系列100万个粤语句子普通话到粤语翻译的字符级BLEU为25.1,粤语到普通话翻译为24.4
Vashistha 等人(2022 年) 主动学习印度理工学院孟买英语印地语平行语料库BLEU得分为24.54。

6.6. 问答

问答是 NLP 中一项深入探索的任务。尽管是销售研究领域之一,但 QA 在全面形式的任务中具有应用,特别是信息检索和实体提取。

Minaee 和 Liu (2017) 探索了基于 DL 的方法在自动问答任务中的应用。最初,问题和答案是在使用神经概率建模的基于神经网络的模型的帮助下嵌入的。然后,生成的低维嵌入式表示作为输入输入到两个并行神经网络。两个网络的输出在几层之后再次组合,以做出最终决定。作者评估了他们提出的模型在保险QA语料库上的性能。根据 Bag of Word + SVM 模型测量所提出的模型的性能,并在测试集上实现了 83% 的准确率。

Wang和Nyberg(2015)提出了一种用于QA任务的双向堆叠LSTM网络。与前面的研究相反,预测的方法不依赖于任何类型的无关知识资源,例如在某些领域或语言中可能无法获得的Wordnet,然后输出其相关性分数。取而代之的是,所提出的系统依次解释问答句的单词,然后产生它们的相关性分数。建议的系统性能在文本检索会议 QA 跟踪数据集上进行评估。所提出的系统的性能是根据关键字匹配基线系统来衡量的,并且优于以前的最先进的结果。

周等人(2015)引入了一个基于CNN的循环问答系统(QA)。他们提出的方法涉及使用CNN来识别问题的组合表示及其相应的答案。然后将这种联合表示输入到长短期记忆网络(LSTM)中,以学习给定问题答案的顺序结构。为了评估基于 RCNN 的模型的有效性,他们使用 SemEval 2015 CQA 数据集将其性能与以前的基线方法(如 CRF、SVM 和 DBN)进行了比较。结果数据显示,与以前的方法相比,有显著的改进,分别报告了56.41%、56.16%和56.14%的准确率、召回率和F1值。

Yih et al. (2014) 提出了一个基于语义相似性的语义解析框架,其中语义相似性的建模基于 CNN 进行开放域问答任务。所提出的模型只能回答单一关系的事实问题。所提出的模型的性能在由大约 180 万对问题和单关系数据库查询组成的 PARALLAX 训练数据上进行了评估。将所提出的系统的性能与视差系统进行了比较,并观察到显着的改进。

Iyyer等人(2014)引入了递归神经网络(RNN)来回答事实问题。在问题文本的一部分由作为答案线索的命名实体组成的情况下,以前的方法几乎无法发挥作用。所提出的模型通过对文本组合性进行建模来处理这种情况。他们称他们提议的模型为QANTA。QANTA 系统通过找出单词和短语级别的表示来调查实体。作者在两个数据集上根据丰富的基线方法测试了QANTA模型,其中它以显着的余量超过了基线结果。同样,QANTA系统在引入红外技术时,也与最熟练的人类玩家竞争。

Kazemi 等人(2023 年)的作品讨论了用于新闻文章的波斯语 QS 系统的开发,以帮助用户找到有关互联网上大量新闻的问题的答案。缺乏对他的波斯语 QA 系统的研究以及他的 QA 系统在新闻领域的重要性促使作者设计和实施他的 FarsNews QA 系统。他们首先创建了FarsQuAD,一个波斯语新闻QA数据集,以分析用户对波斯语新闻问题的性质和复杂性。然后,作者使用他的 BERT、ParsBERT 和 ALBERT 开发了他的三个 FarsNewsQA 模型,该系统的最佳版本他获得了 75.61% 的 F1 分数和波斯语我们已经证明了基于 Bert 的技术在新闻 QA 系统中的有效性。总的来说,这是开发波斯语新闻文章质量保证体系的第一次尝试,结果是有希望的。

Roy 等人(2023 年)在他们的出版物中回顾了关于社区问答网站 (CQA) 的现有文献,特别关注实现传统的机器学习 (ML) 和 DL (DL) 技术。我们进行了全面审查。他们的系统综述包括 133 篇文章,简明扼要地概述了与用户相关的问题、答案和关键问题。具体来说,在这项研究中,雅虎是研究最多的平台。大多数关于 Answers、Stack Exchange 和 Stack Overflow 的文章都集中在一个平台上。主要研究课题围绕问题质量、答案质量和专家识别等方面展开。虽然 DL 在 CQA 研究中的使用正在增加,但 ML 继续保持其主导地位。最后,提出了该领域进一步研究的多种研究方法。

Tian等(2023)介绍了一种利用深度学习网络自动生成漏洞管理对策来回答漏洞知识问题的新方法。该方法包括 BERT、双向门控循环单元 (BiGRU) 和用于从文本中提取语义特征的自我感知机制。使用连体神经网络构建答案选择模型,该模型使用提取的语义特征准确匹配安全风险问题和管理操作。实验结果表明,与现有的答案选择模型相比,所提模型具有更好的性能。此外,基于该模型,开发了一种问答系统,有效解决了安全风险管理问题,验证了该方法的可靠性和适用性。本研究强调及时进行安全风险管理的重要性,以尽量减少建筑工地发生事故的可能性,旨在减少以有效方式制定安全风险管理措施的耗时和劳动密集型过程。提出解决方案。

Mostafa 和 Mohamed (2022) 在他们的工作中描述了在建立阿拉伯语问答系统时遇到的困难,尤其是在使用古典阿拉伯语的《古兰经》的背景下。研究人员宣布他们参与与第五届开源阿拉伯语语料库和阿拉伯语处理工具研讨会 (OSACT5) 同时举行的联合任务“古兰经 QA 2022”。他们提出了一种深度学习方法来应对与《古兰经》质量保证相关的挑战,例如所提供数据集的样本量有限。为了优化模型性能,作者在不同的大型数据集上对模型进行了多次改进,然后在提出的数据集上对其进行了改进。此迭代过程导致开发集的 pRR 为 66.9%,测试集的 pRR 为 54.59%。

表 6.基于DL的问答任务方法摘要。

数据结果
Minaee 和 Liu (2017) 神经网络保险 QA 语料库包含 12889 个问题的训练集、验证和 2000 个问题的测试集83% 准确率
Wang和Nyberg(2015) 双向堆叠式LSTM网络文本检索会议(TREC) QA跟踪数据集
周等人(2015)复发性 CNNSemEval 2015 CQA 数据集 精度分别为 56.41%、56.16% 和 56.14%,召回率和 F1 值
Yih等人(2014)美国有线电视新闻网(CNN)视差训练数据显著改善
Iyyer等人(2014) 递归神经网络(RNN)显著改善
Kazemi 等人(2023 年)BERT、ParsBERT 和 ALBERT 英语 SQuAD 数据集F1得分为75.61%
穆斯塔法和穆罕默德 (2022)ARAELECTRA 
(小型 BERT)
QRCD(古兰经阅读理解数据集)实现了 66.9% 的 pRR 和 54.59% 的 pRR
Alsubhi 等人(2022 年)密集通道检索 (DPR) AraELECTRAARCD 和 TyDiQA 98.11召回和 98.00 召回
Tran 等人(2023 年)伯特SQuAD 数据集和 Vi-SQuAD 1.181.202% F1得分
Rastgoo 等人(2023 年)美国有线电视新闻网(CNN)、伦敦电信(LSTM)、伯特(BERT)2 个 VideoQA、2 个动态手势识别数据集和 1 个手部动作识别数据集准确度 0.8768%

本文强调了改进阿拉伯语 QA 系统的重要性,并展示了一种应对这一挑战的有前途的方法。

Alsubhi 等人(2022 年)介绍了一项关于为阿拉伯语开发基于 DL 的开放域问答 (OpenQA) 系统的研究,与英语相比,该系统的研究较少。该模型使用密集通道检索器进行文档检索,使用AraELECTRA回答阅读理解。该系统在阿拉伯语问答基准数据集上进行了测试,并将结果与传统的阿拉伯语 OpenQA 方法和用于英语 OpenQA 的 DL 方法进行了比较。研究发现,所提出的模型优于传统的信息检索器,并改进了阿拉伯语数据集中的端到端问答系统。

Tran et al. (2023) 专注于开发一种低资源语言的 QAS,特别是越南语。QAS是为封闭域场景设计的,特别是“越南胡志明市食品工业大学的研究生入学”。作者利用神经网络模型,特别是机器阅读理解方法,该方法在解决QA问题方面取得了令人印象深刻的成果。

为了促进QAS的开发,创建了两个数据集:vi-SQuAD v1.1,它是斯坦福大学问答数据集(SQuAD)的编辑和翻译版本,以及HUFI-PostGrad,一个手动收集的数据集。该系统采用两个主要模型:意图分类模型和机器阅读理解模型。

初步实验结果表明,QAS具有良好的性能。这项研究有助于推动QAS在低资源语言中的应用,并证明了神经网络模型的有效性,特别是在机器阅读理解的背景下。

Rastgoo 等人(2023 年)引入了一种称为多视图视频问答 (MV-VQA) 的新框架,该框架专注于基于手的视频问答。该框架包含几个关键组件,包括单次检测器 (SSD)、CNN、LSTM、BERT 和共注意力机制。RGB 视频用作模型的输入(请参阅表 6)。

表 7.使用 tensorflow 服务的主要公司列表。

S.No公司名称描述总部
1Airbnb经营在线市场和酒店服务我们
2英伟达人工智能计算领导者 GPU发明者我们
3优步交通网络和拼车公司我们
4卡考奥互联网提供公司韩国
5深心英国
6Dropbox的 提供公司的文件托管服务我们
7易趣电子商务公司我们
8谷歌为公司提供搜索引擎、云计算、广告等技术服务我们
9Snapchat的 多媒体消息应用程序我们
10英特尔英特尔是一家跨国公司,从事计算机的半导体制造组件我们
11可口可乐软饮料公司我们
12中兴通讯中兴通讯是一家中国跨国电信公司。它涉及蜂窝设备的设计和营销中国
13高通设计和销售半导体无线电信设备、设备和服务我们
14Twitter是一种主要用于在线新闻的社交网络服务我们

7. 工具和资源

工具和资源在使用 DL 推进 NLP 研究和开发方面发挥着至关重要的作用。它们为研究人员和开发人员提供了准确高效地构建和评估模型所需的必要基础设施、数据和模型,从而减少了 NLP 研究和开发所需的时间和成本。

工具和资源对于使用 DL 推进 NLP 的研究和开发至关重要。DL 模型在语言翻译、文本分类和 QA 等 NLP 任务中取得了显着成功。然而,深度学习模型的有效性在很大程度上取决于用于训练的数据的质量和数量。此外,创建高质量的注释数据是一个耗时且昂贵的过程,需要大量的专业知识。

为了应对这些挑战,已经开发了各种工具和资源,可以帮助研究人员和开发人员创建、注释和分析 NLP 任务的数据。例如,Labelbox 和 Prodigy 等注释工具允许用户高效准确地创建注释。还开发了 BERT、GPT-3 和 T5 等预训练语言模型,这些模型可以针对特定的 NLP 任务进行微调,使用较少的注释数据,从而减少数据注释所需的时间和成本。

此外,还有几个可用的开源库和框架,例如 TensorFlow 和 PyTorch,它们为开发 DL 模型提供了现成的代码。这些库和框架使研究人员和开发人员能够更轻松地构建、训练和评估深度学习模型。

7.1. 斯坦福NLP工具

斯坦福大学NLP研究小组是使第一个基于DL的开源NLP框架可供所有人获取的先驱。该研究小组不仅提供深度学习框架,还提供统计和基于规则的NLP工具,以解决计算语言问题。所有斯坦福 NLP 工具和框架都具有极高的货币标准,并且可以很容易地集成到具有人类语言技术先决条件的应用程序中。如今,斯坦福 NLP 工具在工业界、学术界和政府等各个领域得到广泛应用。

7.2. TensorFlow NLP 框架 

最著名、据称最有效的深度学习框架是 Tensorflow。在内部,Google 开发团队开发了用于构建 DL 模型的框架 TensorFlow,该框架自 2015 年作为开源发布以来越来越受欢迎。Tensorflow 以多种语言运行,例如 Python、C++、Java、Go、Julia、C#、R.TensorFlow 是一个非常引人注目且成熟的 DL 库,具有强大的可视化潜力和许多适用于高级模型开发的替代方案。它成名的理由是开发人员可以简单地构建和部署应用程序。

此外,开发 Tensorflow 的理念是在有限的处理资源下工作。使用单个 API,该库可用于多种类型的计算机,包括移动计算机。表 7 给出了使用 TensorFlow 的主要公司,而表 8 提供了用于 NLP 的最常用的 DL 框架。

2022 年 9 月,Kaggle 进行了第六次年度全行业调查,2针对来自 173 个国家/地区的具有“数据科学家”职位的个人。目的是全面了解数据科学和机器学习的现状。该调查由43个问题组成,供受访者回答。根据调查结果,60.90% 的机器学习开发人员和数据科学家采用了 TensorFlow。图 16 提供了 kaggle 2022 年调查结果,而截至 2017 年 10 月的 axRiv 论文中提到的 DL 模型在图 15 中得到了证明。

表 8.用于自然语言处理的常用 DL 框架。

框架/库作者/参考文献:主要应用领域源代码 URL
链子Tokui等人(2015) 文本分类、NER、词消歧、依赖解析、语言建模、机器翻译、语音识别、问答、CNN,LSTM,B-LSTM,RNN,seq2seq https://github.com/chainer/chainer
深度学习4j亚当·吉布森
https://deeplearning4j.org/
文本分类、POS、单词消歧、依赖解析CNN、LSTM、RNN、seq2seq https://github.com/agibsonccc
深层阿塔尔迪 (2015)文本分类、NER、单词消歧、序列标记美国有线电视新闻网(CNN)https://github.com/attardi/deepnl
动态网卡内基梅隆大学团队
Neubig等人,2017 
)
文本分类、NER、词消歧、依赖解析、语言建模、机器翻译、语音识别、问答、语义角色标注、POS、序列标记CNN,LSTM,B-LSTM,RNN,seq2seq https://github.com/clab/dynet
凯拉斯Keras 团队 (https://keras.io/) 文本分类、文本生成、文本摘要、NER、词消歧、依赖解析、语言建模、机器翻译、语音识别、问答、CNN,LSTM,B-LSTM,RNN,seq2seq https://github.com/keras-team/keras
NLPNET网络丰塞卡和罗莎 (2013)POS、词消歧、依赖解析、语义角色标签美国有线电视新闻网(CNN)https://github.com/erickrf/nlpnet
OpenNMT的 Klein等人(2017) 神经机器翻译和神经序列建模RNN,seq2seq https://github.com/OpenNMT/OpenNMT
PyTorch的 亚当·帕斯克山姆·格罗斯苏米斯·钦塔拉格雷戈里·查南机器翻译、分类、文本生成、标记LSTM、RNN、seq2seq https://github.com/pytorch/pytorch
水疗中心马修·汉尼拔
https://github.com/honnibal 
)
文本分类、命名实体识别、词性标记、依赖关系解析美国有线电视新闻网(CNN)、LSTMhttps://github.com/explosion/spaCy
斯坦福大学的 CoreNLP(Manning等人,2014) 词性标记、命名实体识别、解析、共指解析、情感分析和信息提取系统LSTM、B-LSTM、RNN https://stanfordnlp.github.io/CoreNLP/
张量流谷歌大脑团队文本分类和摘要、语音识别、标记、机器翻译CNN,LSTM,B-LSTM,RNN,序列2seq https://www.tensorflow.org/
TFLearn的 TFLearn 团队
http://tflearn.org/
情感分析、文本生成和命名实体识别CNN,LSTM,B-LSTM,RNN,序列2seq https://github.com/tflearn/tflearn
西阿诺Theano开发团队
Al-Rfou等人,2016 
)
文本生成、文本摘要、NER、POS、wprd嵌入、语义角色标注、机器翻译、语音识别、问答、文本分类RNN和序列间模型(seq2seq)https://github.com/Theano/Theano
RNNS竖琴中开府NER,POS,seq2seq RNN、RNN-CRF、LSTM、BLSTM、BPTT https://github.com/zhongkaifu/RNNSharp
  1. 下载 : 下载高分辨率图像 (163KB)
  2. 下载 : 下载全尺寸图片

图 15.截至 2017 年 10 月,在各种 Arxiv 论文中提到了 DL 模型。

https://keras.io/why-use-keras/
  1. 下载:下载高分辨率图像(295KB)
  2. 下载 : 下载全尺寸图片

图 16.Kaggle 2022 年调查结果。

7.3. 数据集资源

相关算法使用的策略,例如是基于 DL 还是基于 ML,以及黄金标准数据的可访问性都会影响 NLP 任务的执行情况。据专家介绍,在机器学习中遇到的挑战中,高质量数据占了大部分(约95%)。表 9 列出了可用于 DL 和基于 ML 的 NLP 研究的主要标准 NLP 数据集。

表 9.可用于深度学习和机器学习的主要标准 NLP 数据集。

任务数据集名称描述大小网址
情绪分析20 新闻组该集合被称为“20 个新闻组”,包含源自来自 20 个不同 Usenet 新闻组的 20,000 条消息的庞大池中的文本内容。这些文本通常用于文本分析、分类和其他相关目标。61.6兆字节http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html
多域情绪数据集(版本 2.0)Multi-Domain Sentiment Dataset (version 2.0) 该数据集包含从众多产品类型的亚马逊产品评论中挑选出的产品评论。很少有像书籍和 DVD 这样的域名拥有数十万条评论。而乐器领域只有几百个。产品评级基于获奖星级的数量。从 1 开始,以 结束。如果需要,可以将星星转换为二进制标签。1.5 GB 1.5 千兆字节
(未处理)
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
空单元格亚马逊评论Amazon Reviews 数据集包含 1.42 亿多条用于情感分析任务的产品评论。这同样可以用于其他 NLP 任务,例如分类20 千兆字节
http://jmcauley.ucsd.edu/data/amazon/
语音识别一百万首歌One Million Songs 数据集是包含音频数据的最流行的数据集。100万首歌曲数据集可用于语音识别和分类任务。1.8 千兆字节http://labrosa.ee.columbia.edu/millionsong/
垃圾邮件过滤短信垃圾邮件收集该数据集由 5574 条短信组成。SMS 标有“垃圾邮件”和“普通”类标签
垃圾邮件过滤任务是可以从该数据集中受益的主要 NLP 任务。
204 KB中文http://www.dt.fee.unicamp.br/tiago/smsspamcollection/
文本分析仇恨言论识别仇恨言论识别数据集内容是从 Twitter 帖子中提取的。2.66 兆字节https://www.crowdflower.com/wp-content/uploads/2016/03/twitter-hate-speech-classifier-DFE-a845520.csv
NER的UNER(内尔酒店)UNER 是一个单语 NER 数据集。该数据集支持乌尔都语的计算NER研究。该数据集大致分为三类,文本摘自 BBC 乌尔都语网站。该数据集的三个核心类别是体育、国家新闻和国际新闻。在其注释中考虑了七个命名实体类。2 兆字节
IJCNLP-2008年IJCNLP-2008 数据集包含近 40000 个单词,其文本标有 12 个命名实体。该数据集由研究小组设计,一个来自巴基斯坦,第二个来自印度
海得拉巴 巴基斯坦研究小组 CRLULP 和印度海得拉巴 IIIT 共同构建了 IJCNLP-2008 数据集,随后,他们将其交给了 2008 年举行的 IJCNLP NER 研讨会(Khan 等人,2016 年)。
http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5
空单元格路透社语料库(RCV1、RCV2、TRC2)路透社语料库第 1 卷 (RCV1) 收录了超过 800,000 篇报纸文章。这个语料库由一个夸张的集合组成。
它也被公认为“路透社语料库,第 1 卷”或 RCV1,它比以前的版本大得多,例如著名的“路透社-21578”集合,在文本分类研究界被无节制地使用。
2.5 千兆字节https://trec.nist.gov/data/reuters/reuters.html
POS机宾夕法尼亚树岸 (PTB)Penn Treebank 语料库被认为是最受欢迎的 NLP POS 数据集。它是在宾夕法尼亚树岸 (PTB) 项目下创建的,其中使用了《华尔街日报》(WSJ)三年的故事。在 98732 个故事中,考虑用于句法注释的故事总数为 2499 个。已经创建了两个版本的 PTB 语料库,即 Treebank-2 和 Treebank-3。117万个代币https://catalog.ldc.upenn.edu/ldc99t42
空单元格Bijankhan语料库Bijankhan 是一个带有波斯语 POS 标签的语料库。其内容摘自每日新闻和其他新闻来源。所有文件都分为政治、文化等大约 4300 个类别。语料库由约260万个单词组成。所有单词都是手动注释的。在注释过程中,总共使用了 550 个波斯语 POS 标签。目前,该语料库的两个可用版本已处理和未处理已处理语料库 (11.1 MB)
原始语料库 (3.7 MB)
http://dbrg.ut.ac.ir/Bijankhan/
空单元格印度语词性标签:印地语该语料库由 4859 个句子和 98,450 个单词组成。文本选自 Microsoft 印地语研究语料库。该语料库可用于词性标记 (POS)。此外,它还可以普遍应用于基于数据驱动的印度语言语言学研究。98,450字https://catalog.ldc.upenn.edu/ldc2010t24
问答保险QA语料库该查询和回复集合来自网站保险图书馆。264兆字节https://github.com/shuzi/insuranceQA
斯坦福问答数据集 (SQuAD)该数据集是基于阅读理解的全新数据集。该数据集包括由一群人提出的查询,并针对维基百科上的各种文章。每个问题都与相应文章中的特定段落相关联,作为该特定查询的答案。该数据集由从维基百科上的 500 多篇文章中选出的 100000 多个问题和答案对组成。SQuAD比以前的阅读理解数据集要大得多训练集:30 MB
开发集:5 MB
https://rajpurkar.github.io/SQuAD-explorer/
维基QA该语料库是一个新的可免费获取的数据集,由手动注释的问题和句子对组成。这个新的语料库只对公开课的问题研究进行了说明。该数据集由 3,047 个问题组成6.8兆字节https://www.microsoft.com/en-us/download/details.aspx?id=52419
TREC 2004 QA 测试问题自 1999 年以来,TREC 经历了一个问答赛马场,其中所有数据都跟踪任务,以便系统找到小规模的数字文本片段,这些片段可以同时考虑开放类和封闭类问题467 KB中文http://trec.nist.gov/data/qa/t2004_qadata.html
SemEval 2015 CQASemEval 2015 CQA 数据集被广泛认为是研究人员非常抢手的资源,并且很容易用于与研究相关的工作。它由 2600 多个培训问题和 300 多个开发问题组成2.15 兆字节http://alt.qcri.org/semeval2015/task3/index.php?id=data-and-tools
WikiAnswers 释义 -I 数据集WikiAnswers释义数据集包含大约1800万个问题对。该数据集抑制了释义、它们的单词对齐方式以及问题的常见 NLP 处理变体。大约有 250 万个尖锐的问题和 1800 万个清晰的释义对543MB压缩,约4G未压缩http://knowitall.cs.washington.edu/paralex/
平行语料库法语-英语并行语料库法语-英语是一个设计语料库,包含法语和英语句子,格式一致。该语料库的内容摘录于1996年至2011年期间。194兆字节https://machinelearningmastery.com/prepare-french-english-dataset-machine-translation/
空单元格Europarl 语料库该语料库包括来自欧洲议会会议记录的数据。该数据集的创建者从1996年至今的所有诉讼中提取了数据。其初始版本于2001年发布,以欧盟的11种官方语言为基础。语言包括:葡萄牙语、荷兰语、丹麦语、希腊语、英语、法语、芬兰语、意大利语、德语、瑞典语和西班牙语2.36千兆字节http://www.statmt.org/europarl/
语音识别DARPA TIMIT声学语音语料库TIMIT语料库被认为是包含阅读语音数据的最可行的语料库之一。该语料库的主要目的是为两项任务提供语音数据:(a)学习声学语音认知和(b)制定和评估自动语音识别系统。它总共包含 6300 个句子。在其结构中,有 630 名演讲者参与其中,因此每位演讲者都被分配到特殊的 10 句话中。440.21兆字节http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3
语音命令数据集 v0.01这是最近发布的一个新数据集,用于支持语音识别任务。在此数据集中,数据以长度为一秒的音频文件的形式进行组织。每个文件都包含一个英语口语单词,而不是一个句子。此数据集的初始版本由 64727 个音频文件组成。138 千兆字节http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
空单元格极光-2Aurora-2 数据基于原始数字的反感。可区分的噪声信号被人为地附加,以产生干净的语音数据。31.82 兆字节http://aurora.hsnr.de/download.html

8. 局限性、挑战

8.1. 限制

数据要求:深度学习模型需要大量标记数据才能达到高水平的准确性,这在 NLP 中可能是一个挑战,因为创建标记数据集可能既耗时又昂贵(Kadam 和 Vaidya,2020)

可解释性深度学习模型可以被视为黑匣子,因此很难理解它们如何做出决策或识别系统中的错误(Sarma 等人,2022 年)。

偏见:深度学习模型可以反映用于训练它们的数据中存在的偏差,从而导致歧视性结果(Dhamala 等人,2021 年,Sheng 等人,2021 年)。

领域特异性:许多 NLP 模型都是在特定领域(例如新闻文章或学术论文)上训练的,因此很难推广到其他领域(Chen and Qian, 2022Zhang et al., 2022)。

使用多种语言:NLP 模型难以处理多种语言,尤其是数据有限的低资源语言(Wang and Zhao, 2021)。

8.2. 挑战

理解复杂语言:深度学习模型难以理解语言的细微差别,例如讽刺、讽刺和隐喻,这可能会影响其预测的准确性(Zhang 等人,2023 年)。

知识表示:当前的 NLP 模型不能有效地表示常识性知识,这对于理解和生成自然语言至关重要(Zhu et al., 2023)。

鲁棒性:对抗性攻击对深度学习模型构成威胁,因为它们利用这些模型的易感性,在输入数据发生微小变化时在其输出中产生大量误差(Qiu et al., 2019)。

多模态 NLP:可以处理多种模态(如文本、图像和音频)的 NLP 模型仍处于早期开发阶段(Shoumy 等人,2020 年)。

9. 新兴趋势和未来方向

DL和NLP领域处于不断发展的状态,新兴技术快速出现。下面列出了该领域出现的一些最有前途的趋势,其中包括预训练语言模型、多模态学习以及少样本和零样本学习。

9.1. 预训练语言模型

在过去的几年里,NLP 已经被大型预训练的基于 Transformer 的语言模型 (PLM) 彻底改变了,如 BERT 和 GPT(生成式预训练转换器)模型,这些模型在各种任务上表现出了卓越的性能并超过了以前的基准(Ding et al., 2023)。

PLM 是一种广泛的神经网络,由于其巨大的尺寸和多功能的适用性,它们在各种 NLP 任务中找到了实用性。这些模型采用预训练微调方法,在广泛的文本语料库上进行预训练的初始阶段,然后针对特定的下游任务进行微调。基于这种方法的语言模型 (LM) 因其对语言编码的熟练程度而受到高度评价,提供了基本的语言理解能力,可以毫不费力地用于各种下游任务(Liu et al., 2023)。

以下是一些最先进的 PLM,它们已经过大量文本数据的训练,并在各种 NLP 任务中实现了最先进的性能。

9.1.1. GPT-2

2019 年 2 月,OpenAI 推出了 GPT-2(Generative Pre-trained Transformer 2),这是一种大规模的无监督 Transformer 语言模型。它拥有令人印象深刻的 15 亿个参数,在大约 40 GB 的文本上进行了训练,相当于大约 100 亿个代币。通过根据前面的上下文预测下一个单词,该模型展示了其产生连贯和有说服力的文本的非凡能力。然而,它也不能幸免于产生荒谬的内容(戴尔,2021 年)。

9.1.2. GPT-3

OpenAI 于 2020 年 6 月发布了 GPT-3,这是一种新的语言模型,其规模比 GPT-2 大 100 多倍,拥有 1750 亿个参数和 96 个层。通过对从 Web 内容中提取的 4990 亿个令牌组成的数据集进行训练,RoBERTa 已成为迄今为止构建的最广泛的语言模型。截至撰写本文时,最接近的竞争对手要小得多,Microsoft 的 T-NLG 和谷歌的 T5-11B 还不到 GPT-3 的十分之一。该模型的大小似乎很重要,因为发现 GPT-3 生成的文本与其前身相比更加连贯(Dale,2021 年)。

9.1.3. GPT-4

OpenAI 语言模型的最新、最复杂的迭代称为 GPT-4。它于 2023 年 3 月 14 日亮相,被视为 DL 发展的下一个重要步骤。OpenAI 尚未公布 GPT-4 参数的确切数量,关于 GPT-4 的架构和其他技术贡献的细节也很少。最近 Koubaa (2023) 提供了一些关于 GPT-4 的细节,他们表示,与 GPT-3.5 的 1750 亿个参数相比,GPT-4 有 170 万亿个参数,大小增加了 1000 倍。同样,GPT-4 超越了 GPT-3,因为它支持多模态输入,例如文本和图形,而 GPT-3 只处理文本输入(Ahsan 等人,2023 年,Freedman 和 Nappier,2023 年)。

9.1.4. RoBERTa(稳健优化的 BERT 方法)

RoBERTa 于 2019 年由 Facebook AI 的研究人员推出(Liu 等人,2019 年)。RoBERTa 采用与 BERT 相当的结构,包含许多转换器层,这些层具有理解给定文本中单词之间上下文联系的能力。但是,RoBERTa 的预训练过程涉及一些有助于提高其性能的修改。例如,RoBERTa 在更大、更多样化的文本语料库上进行训练,并在预训练期间使用动态掩码来防止模型记住掩码词的位置(Liu et al., 2019)。在训练参数方面,RoBERTa 在 160 GB 的文本语料库上进行训练(而 BERT 为 16 GB),并使用 8192 的批处理大小(而 BERT 为 256)。该模型训练了 450 万步(而 BERT 为 100 万步),最大序列长度为 512 个令牌。RoBERTa 还使用比 BERT 更多的 GPU 进行训练,这允许在训练期间实现更有效的并行化马 等人,2021 年)。

9.1.5. T5(文本到文本传输转换器)

T5 是由 Google 人工智能团队创建的著名语言模型,以其广阔的规模与其他模型区分开来。与特定于任务的模型不同,T5 是一种适应性强的模型,可以进行微调以在各种自然语言处理任务中表现出色,包括问答、摘要和语言翻译。T5 使用“文本到文本”方法,这意味着它获取给定的输入文本并将其转换为目标文本。这种方法允许更灵活和适应性更强的培训,以及更好地泛化到新任务。T5 在多个 NLP 基准测试中取得了最先进的性能,并已成为 NLP 研究和应用的流行工具(Raffel 等人,2020)。T5 模型由 28 层自注意力和全连接层组成。它使用具有编码器-解码器注意力机制的 Transformer 架构。该模型是在由 750 GB 文本组成的海量数据集上使用 BERT 中使用的预训练任务的修改版本(称为 C4)进行训练 的。T5 模型使用序列长度为 512 个令牌、批处理大小为 8192 和初始学习率为 0.001 进行训练。该模型使用监督和无监督学习任务的混合进行训练,包括文本摘要、问答和语言(Raffel 等人,2020 年)。

9.1.6. XLNet(eXtreme 多语言)

XLNet是由Yang等人(2019)及其在卡内基梅隆大学、谷歌研究院和伊利诺伊大学厄巴纳-香槟分校的同事提出的神经语言模型。它于 2019 年 6 月推出,并因其在各种 NLP 任务上的先进性能而迅速受到关注(Sams 和 Zahra,2023 年)。

XLNet 被设计为流行的基于 transformer 的语言模型 BERT 的扩展,以解决 BERT 的一些局限性。虽然 BERT 是一个强大的模型,可以在文本中捕获双向上下文信息,但它也有一些缺点,例如它无法处理基于排列的语言建模任务,并且依赖于从左到右或从右到左的预训练策略(Yang et al., 2019)。

另一方面,XLNet 使用基于排列的语言建模方法,这允许它对输入序列的所有可能排列之间的关系进行建模。这是使用一种称为“排列语言建模”的技术实现的,该技术在预训练期间对输入序列的不同排列进行采样,以确保模型可以处理任何输入排序(Guo et al., 2023)。

XLNet的技术细节包括具有多层和大量参数的Transformer架构(基本模型为3.4亿,大型模型为15亿)。它使用无监督和监督学习的组合在大型文本数据语料库上预训练模型,并针对特定的下游 NLP 任务进行微调(Choudhary 等人,2023 年,Ray,2023 年,周 等人,2023 年)。

XLNet 在多个基准 NLP 数据集上取得了最先进的结果,包括 GLUE 基准测试、SQuAD 2.0 数据集和 RACE 数据集。其创新的基于排列的语言建模方法也激发了该领域的进一步研究(Mandal 等人,2021 年)。

9.2. 多模态学习

NLP 中的多模态学习是一个令人兴奋的研究领域,它有可能显着提高机器学习模型在广泛应用中的准确性和鲁棒性。多模态学习是将来自多个来源或模式(如文本、图像、视频和音频)的信息组合在一起以提高机器学习模型性能的过程。在 NLP 的背景下,多模态学习涉及整合不同的信息模态以更好地理解自然语言(Du 等人,2023 年)。

多模态学习在 NLP 中的一个常见应用图像字幕,其中训练算法以生成准确反映图像内容的描述性句子或标题。在这种情况下,算法需要结合来自图像的视觉特征和文本的语义含义的信息,以生成相关的标题(do Carmo Nogueira et al., 2020)。

9.3. 少样本和零样本学习

少样本学习和零样本学习是机器学习和深度学习中的两个相关概念,在 NLP 的背景下特别相关(Cai et al., 2023),由 Vinyals et al. (2016) 于 2016 年提出,并在多个基准数据集上取得了最先进的结果。Vinyals等人(2016)的工作引起了研究界的极大兴趣,并引发了小样本学习的进一步发展。

小样本学习是指机器学习模型从有限数量的示例中学习的能力。在NLP中,这可能涉及训练一个模型,以仅用几个例子来识别新的实体或短语,而不是需要大量的训练数据。小样本学习通常是通过元学习等技术实现的,元学习涉及学习如何从一组有限的例子中学习(Cai et al., 2023)。

另一方面,零样本学习是指机器学习模型泛化到尚未明确训练的新任务或类的能力(Müller 和 Laurent,2022 年)。在 NLP 中,这可能涉及训练模型来执行特定任务,例如文本分类或机器翻译,然后将其应用于以前从未见过的新输入或语言。零样本学习通常是通过迁移学习等技术实现的,这涉及利用预先训练的模型或特征来适应新的任务或领域(Cai 等人,2023 年)。

总体而言,在过去几年中,少样本和零样本学习已成为机器学习的重要研究课题,在开发可以从有限或没有数据中学习的新算法和技术方面取得了重大进展。

9.4. 未来方向

从文献综述中,我们观察到,与阿拉伯语、乌尔都语、印地语、波斯语、普什图语、信德语、旁遮普语、泰米尔语、马来亚语、汉语和日语等相比,英语是唯一在 DL 模型的帮助下进行深入研究的语言。此外,在这方面,全世界有7000多种语言,至少有80种语言超过1000万群众,这意味着最新的研究遗漏了很大一部分人类。用资源匮乏的语言收集和建立数据,以及应用这些数据的NLP模型的测试,不仅对NLP的共同领域,而且对整个人类社会来说都是一个巨大的份额。

同样,大多数 DL 库需要复杂的硬件资源(如 GPU)才能运行。然而,大多数南亚国家的 NLP 实验室缺乏基于 GPU 的服务器系统,因此在未来,这些库需要使用轻量级可扩展算法进行更新,以便它们甚至可以在智能设备上运行。

解释图像是NLP的下一个空白。自然语言创作是通用人工智能的先决条件,通用人工智能被视为人工智能的最终目标。NLP研究的下一个领域将是理解常识,这对人们来说是微不足道的,但对机器来说却是具有挑战性的,以及基于视觉效果的推理和推理,以构建关于任何动态主题的有意义的短语。Open AI 的 GPT、GPT-3 和 GPT-4、BERT 或 Google 的 PaLM 等大型语言模型在这方面的努力不大,但在 NLP 领域却是重大突破。

人类语言是一个复杂的系统,有许多细微差别。如今,简单的 NLP 算法无法全部掌握它们。例如,讽刺和代码切换在当今的现代 NLP 算法中表现得不够好。合乎逻辑的下一步是改进 NLP 算法,以近乎人类的准确性检测这些细微差别,从而将灵敏度整合到聊天代理中。建立后,下一阶段是将来自人类语言输入以外的所有其他数据点的信息结合起来,以提供更好的价值。这也将使我们离通用人工智能更近一步。

此外,还需要努力:

  • 开发可以提供透明和可解释结果的深度学习模型,以提高信任和问责制。

  • 开发可以从很少的例子甚至没有例子中学习的模型,以提高NLP系统的鲁棒性和灵活性。

  • 创建专门为低资源语言量身定制的预训练语言模型,因为预训练模型在 NLP 任务中已显示出潜力,并且在该领域越来越普遍。

  • 开发能够处理多种语言和语言对的NLP模型将继续是一个重要的研究领域。为NLP系统的开发和部署制定道德准则,以减轻与偏见和公平性相关的问题。

表 10.当前研究中使用的首字母缩略词列表。

缩写定义缩写定义
法学硕士大型语言模型DBN的深度信念网络
DL型DL型显卡图形处理单元
自然语言处理自然语言处理
红外信息检索NER的命名实体识别
通用共级报告(CRF)条件随机字段BPTT公司随时间推移的反向传播
支持向量机支持向量机格鲁门控循环单元
隐马尔可夫模型CBOW的连续的单词袋
美国有线电视新闻网(CNN)卷积神经网络手套用于单词表示的全局向量
RNN系列递归神经网络伯特来自 Transformer 的双向编码器表示
LSTM公司长期短期记忆阿尔伯特精简版 BERT
GPT的生成式预训练 Transformer 模型上下文向量
人工神经网络埃尔莫来自语言模型的嵌入
成果管理制受限玻尔兹曼机FFNN的前馈神经网络
GMMs(全球通用管理机制)高斯混合模型MT系列机器翻译
麦克斯恩特最大熵质量保证问答
MLP系列多层感知器DNN(英语:DNN)深度神经网络

10. 结论

如今,NLP 和 DL,尤其是 LLM,是数据科学的两个重点。在过去十年中,用于自动文本分析和消歧的 DL 模型如雨后春笋般涌现。在NLP研究领域中,用于文本分析的DL架构的实践引起了强烈的研究兴趣。一旦围绕它的神话被消除,基于DL的NLP的后续几年可能会引起反响。在本文中,我们试图提供有关神经网络的全面细节,详细介绍 NN 如何转换为卷积网络,以及 CNN 网络如何转换为 DBN,最后是 DL 模型如何从传统网络演变而来。此外,我们还提供了有关其各种 DL 架构的详细信息,例如 CNN、DBN、RNN 和 LSTM 网络。最后,我们详细分析了DBN、CNN和RNN等DL模型成功应用的主要NLP任务,并在文本分类、POS标记、NER等NLP领域设置了新的先进结果。DL模型的性能似乎是吉祥的,但是,本研究中讨论的结果是来自NLP某些子领域的探索性结果。在这项研究中,本研究的主要重点是研究各种深度学习模型,包括 CNNS、DBN、RNN、GRU 和 LSTM 网络,这些模型适用于重要的自然语言任务。通过对各种模型的分析,我们得出结论:(a)尽管LLM在生成连贯和流畅的语言方面具有先进的能力,但像GPT这样的大型语言模型,使用统计学习技术在大量文本数据上进行训练,在理解和适当使用语言的语用方面仍然面临重大挑战,包括上下文、预设、 隐含和社会规范。(b) 首先,数据质量至关重要,因为深度学习模型的准确性和可靠性取决于它们所训练的数据的质量。深度学习模型从数据中的模式中学习,如果数据是嘈杂的、不完整的或有偏差的,模型可以学习并延续这些相同的问题。因此,在深度学习模型的训练过程中,保证高质量数据的使用至关重要,最大限度地减少错误并确保其在捕捉模型旨在掌握的真实世界现象方面的代表性。其次,数据多样性至关重要,因为深度学习模型需要暴露于广泛的示例和变体中,以学习能够很好地推广到新数据的鲁棒表示。如果训练数据范围太窄或范围有限,模型可能无法处理新的和看不见的输入,从而导致性能和泛化能力差。通过整合各种数据源,深度学习模型可以学习广泛的模式和关系,使其更适应新的情况和环境。对于大型语言模型,数据质量和多样性的重要性更加明显。这些模型需要大量的数据来获取知识并生成高质量的文本,并且这些模型的性能会受到数据的口径和种类的重大影响。例如,GPT-3 接受了包含数百万个网页、书籍和文章的大量数据的培训,以确保它能够访问多样化和高质量的数据源。因此,它能够在广泛的主题和风格中生成非常连贯和自然的文本。总之,数据质量和多样性对于开发和训练强大而准确的深度学习模型至关重要,尤其是像 GPT-3 这样的大型语言模型。通过使用高质量和多样化的数据源,这些模型可以学习模式和关系,使它们能够很好地泛化到新情况并产生高质量的输出。

与NLP领域的结果相反,它仍然远离健康,允许计算机推断人类语言。因此,将来DL和NLP需要更多的探针(见表10)。

利益争夺声明

We wish to confirm that there are no known conflicts of interest associated with this publication and there has been no significant financial support for this work that could have influenced its outcome.
我们希望确认,与本出版物没有已知的利益冲突,也没有对这项工作提供可能影响其结果的重大财政支持。

引用

被引用 (0)