爱思唯尔

自然语言处理期刊

第 4 卷,2023年9月,100026
自然语言处理期刊

探索深度学习和自然语言处理的前沿:全面概述主要挑战和新兴趋势

https://doi.org/10.1016/j.nlp.2023.100026获取权限和内容
在知识共享下许可证
开放获取

抽象

在最近5年多的时间里,深度学习(DL),尤其是大型语言模型(LLM),在一个由传统研究者社会组成的明显平均低迷的知识领域中产生了广泛的研究。因此,深度学习现在是如此普遍,以至于它在与机器学习计算相关的研究中得到了广泛的应用 。在各种任务中,深度学习架构的迅速出现和明显领先于传统机器学习技术,这确实令人惊讶。DL 模型自然语言处理 (NLP)、图像分析、语言理解、机器翻译、计算机视觉、语音处理、音频识别、风格模仿和计算生物学等多个领域表现出色。在这项研究中,目的是解释深度学习的基本原理,例如神经网络、卷积神经网络、深度信念网络和深度学习的各种变体。该研究将探讨这些模型如何应用于NLP,并深入研究它们背后的基础数学。此外,该研究将调查 DL 和 NLP 的最新进展,同时承认该领域的主要挑战和新兴趋势。此外,它还将从分类学的角度讨论深度学习的核心组成部分,即嵌入。此外,还将提供文献综述,重点关注深度学习模型在六种流行模式识别任务中的应用:语音识别、问答、词性标记命名实体识别文本分类和机器翻译。最后,该研究将揭开最先进的 DL 库/框架和可用资源的神秘面纱。本研究的结果和启示表明,由于法学硕士依赖统计学习技术,缺乏对语境、预设、隐含和社会规范的真正理解,他们在处理语言的语用方面面临挑战。此外,本研究对当前最先进的进展进行了全面分析,并强调了重大障碍和新出现的发展。这篇文章有可能增强读者对主题的理解。

关键字

自然语言处理 (NLP)
机器学习 (ML)
大型语言模型 (LLM)
词嵌入
深度学习 (DL)

1. 引言

语言在感知社会的遗产和情感方面起着至关重要的作用。在有足够的文本数据的情况下,自动内容分析使我们能够获得对社会的大量见解和理解。今天,全世界有超过7000种语言被使用。根据 Ethnologue 的数据,英语是使用最多的语言,全球有 13.5 亿人使用英语。百分之八十的英语说英语的人是第二、第三或更高语言,每十个人中只有两个人是母语人士。普通话是世界上第二大常用语言,有 11.2 亿人使用普通话,然而,这些人中只有 9.21 亿人将其作为第一语言(Beytía et al.,2022)。1

全球有 6 亿人使用印地语,是使用最广泛的语言,其次是西班牙语(5.43 亿)、阿拉伯语(2.74 亿)和乌尔都语 2.3 亿。语言是根据全球书写系统使用图形字符组合书写的,称为脚本。据报道,全球现存的文字数量估计为294种。虽然 133 种历史文字,例如埃及象形文字和阿兹特克象形文字,已不再使用,但今天仍在使用多达 161 种文字。语言充满了突出文化独特性的特殊性。每年的 2 月 21 日被庆祝为世界母语日(Beytía et al.,2022)。拉丁语在全球至少有 305 种语言中使用,包括英语、法语和西班牙语,是现存 161 种实时文字中最普遍的。图 1 显示了世界上最常见的文字。

最初,互联网旨在用英语向用户显示信息,但现在随着时间的进步,工具的进步,以及世界上有凝聚力的数字资源的易于访问,网络演变成一种多语言的数据媒体。NLP是一个基于计算和人工智能的技术的理论驱动领域,用于对人类自然语言进行机器控制的分析和表示,以在计算机和人类之间建立显着的联系(Cambria和White,2014)。

  1. 下载:下载高分辨率图像(374KB)
  2. 下载 : 下载全尺寸图片

图 1.世界上最常见的文字。

正如NLP科学界所看到的那样,在线平台上的多语言材料最近爆炸式增长。因此,单语和多语言信息检索 (IR) 任务的研究对 NLP 科学界很有吸引力。复杂的 NLP 工具对于从文本中挖掘相关信息至关重要。适用于全球许多语言的Avant级NLP工具和方法都是基于DL方法的。如今,NLP 和 DL 是数据科学的两个尖锐的重点领域。NLP允许计算机执行广泛的自然语言相关任务,从文本分类,问答等到机器翻译和语音识别。目前,数据科学主要集中在两个领域,即NLP和DL。借助 NLP,计算机可以执行与自然语言相关的各种任务,例如文本分类、问答,甚至机器翻译和语音识别。

DL 涉及机器学习能力的倾向,它确定了深度架构中的多层次表示。深度学习架构已经在计算机视觉和模式识别等领域取得了惊人的进步。如今,现代NLP研究正逐渐集中在新型深度学习算法的实践上。在深度学习方法出现之前,大部分NLP任务都是通过生成式或判别式学习方法进行的,如隐马尔可夫模型(HMM)、条件随机场(CRF)和支持向量机(SVM)等。所有这些模型都是在非常高维和稀疏的特征上训练的(Young等人,2017)。在过去的几年里,神经网络的深度学习架构,其学习基于密集的向量表示,已经在各种NLP任务上产生了巨大的结果。然而,传统的机器学习基础 NLP 系统在很大程度上对手工织造的特征进行仲裁。这种手工织造的特征需要很长时间才能开发,而且往往没有详细说明(Young et al., 2017)。

研究预测,在未来几十年内,机器智能将在各种任务中超越人类(Grace et al., 2017)。研究人员估计,机器智能有50%的可能性在45年内在所有任务中超过人类,所有人类劳动将在120年内实现自动化。图 2 显示了 AI 何时超过人类的表现,而图 3 显示了网络上的一分钟活动会产生多少数字数据。

我们的研究深入研究了各种深度学习模型,包括卷积神经网络 (CNN)、深度信念网络、递归神经网络 (RNN) 和长期短期记忆 (LSTM) 网络,这些模型适用于重要的自然语言任务。我们的目标是在DL的帮助下揭开NLP中所有相关工作的神秘面纱,讨论与NLP计算处理相关的最重要问题,并突出当前的研究工作以及未来的研究趋势。

  1. 下载 : 下载高分辨率图片 (167KB)
  2. 下载 : 下载全尺寸图片

图 2.预测人工智能将超越人类的年份(Grace et al., 2017)。

  1. 下载:下载高分辨率图像(378KB)
  2. 下载 : 下载全尺寸图片

图 3.互联网上的一分钟活动2.

与过去研究的差异:过去,关于NLP和DL交叉的研究有限。即使在今天,在NLP领域的低资源语言背景下,也只进行了少量的应用工作,例如LLMs模型。Al-Ayyoub等人(2017)仅调查了阿拉伯语的基于DL的研究工作。作者仅提供了关于深度学习方法的文献调查,缺乏对深度学习方法的分类学和深度学习历史的讨论,也没有提供对不同深度学习方法和相关问题的比较研究。同样,Young et al. (2017) 对用于处理 NLP 中各种任务的 DL 模型和方法进行了重要回顾。尽管(Young et al., 2017)的研究工作利用了各种深度学习模型,但细节不足,作者跳过了对各种流行模型的讨论,如受限玻尔兹曼机和深度信念神经网络,也缺乏许多流行的深度学习应用领域,如机器翻译、文本分类等。这种趋势促使我们进行彻底的研究,以评估该主题的深度学习方法的现状。我们希望通过对比各种可用的深度学习架构来检测对模型性能的影响,使潜在的研究人员更容易更好地掌握这些架构的优缺点。本调查涵盖了170多项研究,并对这些相关作品进行了总结和分析。本研究的主要贡献如下:

  • 提供历史并揭开流行 DL 模型的分类和变体的神秘面纱

  • 从分类学的角度探索嵌入的概念

  • 研究 DL 模型对大多数流行的 NLP 任务的影响和意义,例如语音识别、文本分类、机器翻译、词性标记命名实体识别、问答

  • 揭开可用最先进的 DL 库/框架和资源的神秘面纱

  • 提及并讨论 DL 和 NLP 领域的局限性、挑战和新兴趋势

这项研究对DL和NLP领域的研究人员和从业者具有重要意义。通过全面概述当前技术水平并强调关键挑战和新兴趋势,本文可以帮助读者更好地了解该领域。反过来,这可能会为未来的研究提供信息,为研究人员探索新方向和克服现有局限性提供路线图。此外,本文对DL和NLP潜在应用的见解可能对新技术和应用的开发产生影响。

本研究对识别DL和NLP领域的新兴趋势具有重要意义。这些见解可能有助于未来的研究人员理解预训练语言模型及其语言处理能力的进步。这些模型有望执行类似人类的功能,例如回答问题、理解和分析输入、文本摘要、语言翻译等。

本文为对 DL 和 NLP 感兴趣的读者提供了几个关键要点。首先,它全面概述了DL和NLP的主要进展,突出了关键挑战和新兴趋势。这对于旨在充分了解各自领域最新进展的研究人员来说具有重要意义。其次,本文对深度学习和自然语言处理的潜在应用提供了见解,并强调了进一步研究以充分发挥其潜力的必要性。这对于想要利用这些技术开发新应用程序和解决方案的从业者很有用。最后,尽管 LLM 在生成连贯和流畅的语言方面具有先进的能力,但大型语言模型,如生成式预训练转换器模型 (GPT),使用统计学习技术在大量文本数据上进行训练,在理解和适当使用语言的语用方面仍然面临重大挑战,包括上下文、预设、隐含和社会规范。总体而言,该论文的主要内容使读者更好地了解该领域、它面临的挑战以及进一步研究和开发的潜在机会。

路线图:本文的组织方式如下:第二部分介绍了神经网络及其基本分类。第三部分重点介绍了神经网络的历史。第四部分揭示了 DL 背后的数学原理,以及它的众多变体和架构细节。第五节介绍了与上下文无关和与上下文相关的嵌入。第六部分总结了深度学习架构在文本分类、词性标记、命名实体识别(NER)、问答、语音识别和机器翻译等主要NLP领域的应用。第七部分围绕各种 DL 最先进的工具和资源。最后,在第 8 节中,我们概述了我们的研究和分析得出的结果,并提出了进一步调查的潜在途径。

2. 神经网络

术语“神经网络”和“人工神经网络”(ANN)在文献中经常被用作同义词。自然的人类神经系统是人工神经网络的模型,人工神经网络是复杂的信息处理系统。它像人脑一样处理信息。ANN的基本因素是其通过其新颖的结构进行信息处理的能力。它的结构由大量相互关联的信息处理单元组成,称为神经元,共同发挥作用以解决特定问题。人工神经网络与人类神经系统一样,通过插图学习。人工神经网络经过精心设计,可通过利用学习过程有效地解决特定问题。在人类神经系统中,学习是通过调整神经元之间已建立的连接中的突触来完成的。同样的过程也发生在人工神经网络中。感知器和乙状结肠神经元是人工神经元的两个重要类别。

2.1. 感知器

感知器最初由 Frank Rosenblatt 在 1950 年代和 1960 年代引入。如今,练习人工神经元的新模型是一种常见的做法

一般神经元的输入由几个二进制值组成x 1,x2, ...x 1,x2,...,而输出是一个单一的二进制值(Gibert Llauradó,2016),如图4所示。

神经元的二进制输出依赖于阈值(感知器偏差)。当加权总和jwjxj小于或等于阈值时,输出为 0。相反,当加权总和jwjxj超过阈值,则输出为 1。权重和阈值都是实数,代表神经元的参数。输出和阈值之间的精确代数关系如下:output=0,fjxjwjthreshold1,fjxjwj>threshold

  1. 下载 : 下载高分辨率图片 (59KB)
  2. 下载 : 下载全尺寸图片

图 4.感知器的结构。

2.2. 乙状结肠神经元

传统感知的主要问题是它的二进制输出,而在大多数情况下,我们可以通过对权重和偏差进行微小的改变来获得最佳解,这在传统感知器的情况下是不正确的。

结构上的乙状结肠神经元和感知器是相似的。然而,乙状结肠神经元的权重和偏差是可调节的,并且经过调整,使得输入的微小变化可能反映其相应输出的微小变化。感知器和乙状结肠神经元的输入是相似的,例如x1,x2, ...,x1,x2然而,感知器的输入仅限于 0 和 1,而 sigmoid 神经元允许 0 和 1 之间的任何值。例如,输入值 0.324 是 S 形神经元的有效输入,而对于感知器无效。类似地,乙状结肠神经元也明确定义了每个输入的权重以及全局偏差,b,但输出不是 0 和 1。在乙状结肠的情况下,神经元输出的计算方式为σ(wx+b) 函数,其中σ称为 S 形函数,用以下代数术语编写:(1)σ(Z)11+ez

下面的代数表达式更精确地描述了一般 S 形神经元的输出,包括输入、权重和偏差。(2)11+经验值(jwjxjb)

神经网络的标准学习算法被称为随机梯度下降反向传播对比散度(Basegmez,2014)。

2.3. 神经网络的结构

ANN的两种常见结构是(a)自动编码器和(b)受限玻尔兹曼机(RBM)(Basegmez,2014)。

2.3.1. 自动编码器

自动编码器通常也称为前馈神经网络。这些类型的网络具有从新输入中带出压缩、加密信息的潜力。他们倾向于通过应用压缩来重塑输入的原始数据。自动编码器从数据的内部结构中学习,而不是基于类标签进行训练。在自动编码器中,隐藏层负责检测功能。自动编码器通过从新输入中带出压缩的加密信息来消除过拟合问题。

2.3.2. 受限玻尔兹曼机

受限玻尔兹曼机 (RBM) 是一种生成随机神经网络,它利用学习过程来获取包含其输入集的概率分布(Rumelhart 等人,1986 年)。RBM 设计有两层神经元,即可见层和隐藏层。这些层中的每个神经元都与前一层中的所有神经元完全连接,而同一层中的神经元之间没有连接。RBM的主要目标是对可见层上输入数据的分布进行建模,如Arel等人,2010年,Hamel和Eck,2010年所述。组合多个成果管理制的一种方法是将一个成果管理制的隐藏层连接到后续成果管理制的可见层。这种链接机制允许以分层方式堆叠 RBM,从而能够创建深度信念网络或深度玻尔兹曼机。在 RBM 中,隐藏层通过无向边相互连接,从而促进了值在整个网络中的双向流动。RBM 是在对比散度算法的帮助下训练的。在图5中,以图形方式描绘了无向RBM。

调节RBM内计算的能量函数E(v,h)如下式(3)所示。(3)Ev,h=bvchhWv

  1. 下载:下载高清图片(122KB)
  2. 下载 : 下载全尺寸图片

图 5.无向 RBM 的图形描述。

3. ANN历史

弗兰基·罗森布拉特(Franky Rosenblatt)于1957年提出了感知器,最初被认为令人印象深刻。然而,在 1969 年,Minsky 和 Papert 发现感知器的行为是线性的并且无效。研究人员试图将线性结构变成非线性结构,并于 1964 年将 Aizerman、Brav.、Roz.1964 年提出了内核,但这也没有帮助人们。最后,他们用具有转发和反向传播风味的多层感知器解决了这个问题(Backprop - Rumelhart et al., 1986)。研究人员不断尝试,直到他们把它变得非常复杂,以至于它吓坏了人们。1992 年,Boser 等人(1992 年)提议使用 SVM 代替内核,并发表了许多文章,但这也没有帮助。之后在2005年(Ando et al., 2005)发现神经网络是多任务处理的优雅模型,因此SVM被NN取代。2009年,神经网络被深度神经网络取代。神经网络具有两个主要功能:灵活性,例如能够处理多任务处理、半监督学习、学习隐藏表示和不同层以及可扩展性。

浅层架构已被证明可以有效地解决许多简化的问题。然而,当它们应用于复杂的实际应用(如信号、语音和声音处理任务)时,在这些情况下,它们的有限建模和低表示能力会导致困难(Erhan et al., 2009)。浅层架构的局限性通过使用深层架构来规避。最流行的深度架构学习算法是反向传播(LeCun et al., 2015)。不幸的是,反向传播在实践中并不能很好地运行,因为学习网络由更高程度的隐藏层组成。反向传播的训练是在局部梯度下降算法的帮助下实现的,其主要特征是从随机的初始点开始。它的主要局限性是它经常在糟糕的局部最优条件下下降,并且随着隐藏层数量的增加,坏的几率会上升到更高的水平。深度架构的优化难度问题通过使用深度信念网络来解决,深度信念网络是 Hinton等人在2006年引入的一类深度生成模型。为了应对优化挑战,DBN采用了固有的逐层学习策略,有效地优化了网络权重,其时间复杂度与网络的大小和深度呈线性关系(邓,2011;邓,2014)。

3.1. 浅层结构架构

浅层架构通常由负责非线性特征或信号转换的单层组成,缺乏具有自适应非线性特征的多层。属于浅层架构类别的常见模型包括高斯混合模型 (GM)、HMM、CRF、最大熵 (MaxEnt) 模型、SVM、逻辑回归、核回归和具有一元隐藏层的多层感知器 (MLP)。这些模型有一个共同的属性,即具有相对简单的架构,该架构仅包括一个负责将原始输入或特征映射到特定于问题的特征空间的层,这可能不容易解释(邓,2014)。浅层架构在处理简单的问题时已经呈现出令人印象深刻的性能,但是当放在需要多级表示的更复杂的实际应用程序中时,此类架构的性能并不令人印象深刻,并且它们有限的模拟和表示能力可能会造成困难。

3.2. 深度架构

为信息处理和其他类型的学习而制定的系统,其学习基于深度架构,通常包含许多隐藏层,其中原始输入的转换以非线性模式进行。在深度架构中,下层的输出成为上层的输入。每个成功的深度学习方法的两个关键特征是(a)模型的生成性质,其中顶层涉及执行判别任务,以及(b)处理多级内部表示的能力,从大量未标记的训练数据中自动提取特征(邓,2014)。

4. 深度学习

自 2006 年以来,深度学习已成为机器学习研究中的一个新领域(Hinton 和 Salakhutdinov,2006 年)。在2006年之前,探索深度架构的参数空间带来了巨大的挑战。然而,DL算法的最新进展已经成功地解决了这个问题,在各个领域都取得了显着的突破(Du和Shanker,2009)。在文献中,深度学习有不同的名称,例如特征学习、深层结构学习和表征学习。表征学习的基本特征是它能够使机器处理原始数据并自动提取检测或分类等任务所需的表征(LeCun et al., 2015)。它是机器学习和人工智能的一个子领域,包括从人工神经网络 (ANN) 演变而来的一系列算法。

假设图像是 DL 的观测值,可以以多种方法呈现给模型。一些常见的可能包括 (a) 向量 (b) 边的集合和 (c) 特定形状的区域

如果一种表示机制对一项任务显示出有希望的结果,那么对其他一些任务也不一定也会显示出良好的结果。因此,一些表示机制对一项任务效果更好,而另一些则对其他一些任务(例如,面部识别或面部表情识别)效果最好。

学习深度学习网络权重的最常见和最广泛使用的算法是反向传播。

但是,反向传播性能与网络层的数量直接相关。网络分层越多,性能越差,反之亦然。为了提高其性能,使用了补充算法(Bengio,2009邓,2014,Glorot和Bengio,2010)。

深入研究深度架构的一个令人信服的理由是,具有众多参数的深度架构具有更有效地映射非线性函数的潜力(Du and Shanker,2009)。

值得注意的是,DL在广泛的自然语言理解任务中取得了显著的成果。这些结果备受期待,并显着推动了该领域的发展(LeCun 等人,2015 年)。架构在机器学习研究人员中声名鹊起的三个证据是(a)计算设备硬件单元的低价格和(b)GPU(图形处理单元)的创新,它扩展了芯片处理能力(邓,2011)和(c)最先进的开源库。

深度学习算法可以是无监督的,也可以是监督的。大多数 DL 算法的学习都是基于表示学习的。深度学习的主要优势在于它能够直接从未处理的输入中自主获取有意义的特征。图 6 说明了 DL 目标的概念描述。

深度学习方法的标志如下:

  1. 下载:下载高分辨率图片(477KB)
  2. 下载 : 下载全尺寸图片

图 6.DL目标的示意图。

  • 处理多层次表示

  • 非线性性质

  • 直接从原始输入中学习

  • 可扩展性

4.1. 卷积神经网络

卷积神经网络(CNN)是一种独特的多层神经网络,其结构有目的地用于有效地处理和分析二维数据,专门为涉及图像和视频的任务量身定制(Arel等人,2010)。看起来相似的几乎所有以前的神经网络和训练都是在反向传播算法的帮助下完成的(Arel et al., 2009)。(见图 7)。

1998 年,Bengio、Le Cun、Bottou 和 Haffner 在一篇论文中介绍了 CNNLeCun et al., 1998)。LeNet-5是他们最初的卷积神经网络,能够将数字分类为手写数字CNN模型是图像和视频处理项目最常用的主要领域,并已广泛应用于各种环境和广泛的应用。CNN具有提取有意义的特征和分析视觉数据的独特能力,对于视频分析甚至深度生成建模等任务至关重要。CNN的多功能性超越了计算机视觉,并已被证明在语音识别和其他领域很有用。这种广泛的应用凸显了CNN模型作为解决多个领域复杂问题的强大工具的重要性。CNN 的开发是为了解决图像数据的问题,但它们在给定顺序输入时也表现出色。卷积网络层表现出神经元的三维排列,类似于人类视觉的功能。这三层分别代表宽度、高度和深度,如图 8图 9 所示。这种区别特征使它们有别于常规神经网络。

卷积神经网络由两个组件组成:

  • 卷积层从输入中提取特征是卷积层的主要目的。

  • 全连接(密集)层:全连接层对来自卷积层的数据进行操作以生成输出

卷积层是 CNN 的构建块,大部分计算都是在其中执行的。在整个图像上使用滤波器/内核生成特征图的过程称为卷积,其中滤波器或内核本质上是特征检测器。通常使用 3 × 3 或 5 × 5 个过滤器(墨菲,2022 年)。

星号 * 符号经常用于表示卷积。表达式为:如果我们有一个由 X 表示的输入图像和一个由 f 表示的过滤器,那么(4)Z=Xf

在卷积过程中进行特征提取后,这些特征被转发到下一层,称为全连接层,以生成最终结果。由于卷积层的输出是二维矩阵,因此它被转换为一维矩阵。

全连接层在数据转换为一维阵列后接收数据。这些不同的值中的每一个都被视为构成图像的独特特征。全连接层对传入数据进行两次处理。

线性过渡用下面的方程(5)表示。(5)Z=WT.X+b其中 X 表示输入,W 是随机初始化权重的矩阵,b 是偏差(常量值)。式(6)描述了输入数据、随机初始化的权重矩阵和随机初始化的偏差矩阵的一般结构。(6)X=x1x2x3x4w=w11w12w21w22w31w32w41w22b=b1b2

仅通过线性变换无法捕获复杂的关系。因此,网络现在有一个额外的组件,使数据具有更多的非线性。激活函数是体系结构中这个新元素的名称。有几种激活函数,但下面列出了广泛使用的最常见的激活函数。

  • 线性函数

  • Sigmoid 函数

  • Tanh 函数

  • RELU 函数

  • 软最大功能

对于 sigmoid 函数,数学表达式如下式 (7) 所示。(7)fx=11+ex

图10表示CNN前向传播计算图

全连接层中的反向传播

  1. 下载 : 下载高分辨率图片 (177KB)
  2. 下载 : 下载全尺寸图片

图 10.CNN 前向传播步骤摘要。

该模型尝试在向后传播过程中调整参数,以提高整体预测的准确性。为了更新这些参数或进行成本函数优化,使用了梯度下降技术

在向后传播中,使用链式规则通过以下公式计算误差变化。(8)EW=EOOZ2Z2W

"EW“表示有关重量的误差的推导,”EO“表示有关输出的误差的推导,”OZ2“表示使用线性变换在全连接层中生成的输出的输出的推导,”Z2 W“表示在全连接层中生成的输出的导数,相对于权重矩阵。

下面提供的方程(9)用于更新权重矩阵中的值。(9)Wnew=Woldle一个rnngr一个teEW

卷积层中的反向传播

深度学习中的卷积层使用称为滤波矩阵的参数。该矩阵在卷积操作中起着关键作用,并在正向传播阶段使用随机值进行初始化。为了更新值,采用下面提供的公式: (10)P一个r一个metersnew=p一个r一个meterold(le一个rnngr一个tegr一个dentofp一个r一个meter)

要更新滤波矩阵,计算参数的梯度非常重要E/f.这个差值E/f 可以正式表示为:(11)Ef=EOOZ2Z2一个1一个1Z1Z1f

一次就具有E/f,该值用于更新原始滤波器值,如下式(12)所示。(12)f=fle一个rnngr一个teEf

优点:CNN能够直接从未处理的数据中提取模式,而无需任何额外的预处理。CNN对噪声和几何失真(包括比例、角度和形状的变化)的抵抗力是其显著优势之一。尽管存在这些像差,CNN 仍成功完成了涉及物体分割、识别和检测的任务。CNN从图像中提取空间信息的能力是另一个优势。这需要检查空间属性,通常称为像素的排列及其在图像中的交互。为了正确识别事物,定位它们的位置,并理解它们与视觉世界中其他事物的相互作用,这些空间品质是必不可少的。CNN利用参数共享,就像其他媒体组织一样。将单个过滤器应用于输入的多个部分以生成特征图。

反向传播属于判别训练程序系列。反向传播的主要局限性是:它忽略了内部输入数据的组成,并且只能模拟输出信号取决于输入的技术。如果输入向量由许多结构组成,这些结构可以由潜在变量(即特征)模拟,并且输出信号是一个类标签,该标签与这些特征相互关联,而不是与原始输入相关(Hinton,2007)。在图像处理的情况下,潜在变量可以对应于特定图像的大小、位置、形状和颜色。其次,为了学习目的,输入向量没有归一化,但是归一化可以提高性能。

在较新的研究工作中,研究人员已经将CNN用于各种机器学习任务,包括人脸检测,文档分析和语音检测(Arel等人,2010)。到目前为止,深度卷积网络被认为是处理图像、视频和语音数据的首选,而循环网络对于处理文本处理等顺序数据是可行的。

4.2. 深度神经网络

深度神经网络由堆叠在一起的多层非线性操作组成(Hinton和Salakhutdinov,2006)。DNN 继承了无监督学习方法和监督学习方法的特征。DNN 使用 RBMS 和自动编码器无监督方式提取特征,并使用有监督算法从无监督算法的结果中生成。

4.3. 深度信念网络或深度信念网络

深度信念网络(DBN)属于生成模型家族,最初由Hinton等人(2006)提出。DBN 本质上是一种具有更快速学习机制的 NN 架构,这使得 DBN 可能是最受欢迎的 NN 类。 DBN 是在 RBM 或自动编码器等简单网络相互堆叠时形成的(Arel 等人,2010 年,Hamel 和 Eck,2010 年,Hinton 等人,2006 年)。DBN 仅限于底部的单个可见层和许多隐藏层。DBN的示意图如图6所示。隐藏单元的工作是在训练阶段捕获高阶数据相关性,这些相关性在可见单元上密切关注,高层内部表示倾向于变得更加困难。DBN的学习机制依赖于一种分层无监督学习算法,称为贪婪方法,该算法由Bengio等人(2007)在他们的原始工作中首次引入。

DBN 的顶层有望解释更多对应于输入观测值“x”的非具象概念,而底层则从输入观测值“x”中提取次要特征。DBN的底层或下层用于提取简单的表示,然后在较高层中用于建模或构建复杂的概念或表示(Bengio等人,2007)。DBN的这种学习策略被称为贪婪学习策略,是DBN贪婪逐层建设性学习算法的设定基础。

Bengio 等人假设 DBN 的高音调性能取决于学习算法的三个全景图:(a) 贪婪的逐层预训练,(b) 使用无监督学习算法来维护来自输入的信息,最后 (c) 整个网络的微调(反向传播)。

DBN 可以公平地处理无监督、有监督和半监督数据。DBN的训练是在无监督的程序中逐层实现的(Glauner,2015)(见图11)。

4.4. 递归神经网络

RNN 属于人工神经网络家族。考虑到信息持久性,RNN 的内部结构包含单元之间的递归边。这使他们能够展示出推动历史的表现。RNN 通过使用内存来解决这一缺点,算法迭代的输出取决于先前迭代中派生的特征,特别是“远距离”先前迭代。RNNs的采用已经观察到广泛的任务,如语言建模Sutskever et al., 2011Yao et al., 2013)、问答(Dai et al., 2016Ture and Jojic, 2016)、语音识别(Serizel and Giuliani, 2016)、翻译(Luong et al., 2015)、图像字幕Karpathy 和 Fei-Fei,2015 年)、NERBonadiman 等人,2015 年)和文本生成(Sutskever 等人,2011 年)。图 12 说明了标准 RNN 的组件,包括输入层、隐藏层和输出层。

图12中,描绘了典型的前向递归神经网络的展开表示。输入层、隐藏层和输出层分别通过参数 U、W 和 V 连接,这些参数在训练阶段确定。在图12中,符号w(t)表示输入单词,通常具有与词汇量等效的维度,而y(t)表示输出层的输出。输出层的维度对应于输出类的总数,如Yao等人(2014)所解释的那样。具体而言,在命名实体识别 (NER) 任务的上下文中,这些层显示命名实体类之间的概率分布,而 h(t) 表示负责存储与输入向量关联的历史数据的隐藏层。以下公式控制 RNN 中的计算过程:(13)ht=σU.w(t)+W.ht1,t=1....T(14)yt=g(Vht)

  1. 下载 : 下载高分辨率图片 (133KB)
  2. 下载 : 下载全尺寸图片

图 12.具有单个隐藏循环层的典型前向循环神经网络模型。

  • w(t) 表示在任何给定时间步长 (t) 处输入层的输入,表示为单个向量。

  • 网络的存储单元 h(t) 被认为在任何时间步长 (t) 内对应于隐藏层。它的计算是根据当前输入状态和先前隐藏状态的输出完成的。

  • y(t) 表示时间步长 (t) 的输出,该输出是通过使用隐藏层输出和连接隐藏层和输出层的权重应用函数 g(Vh(t)) 获得的。

  • σr 表示负责设置第一个隐藏状态的初始值的函数。

深度 RNN 与典型的 RNN 类似,只是我们在每个时间步长上都有多个隐藏层。这提供了增强的学习能力。

典型和深度 RNN 模型可以在两种模式下运行:正向和双向。在双向 RNN 中,任何给定时间步长 (t) 的输出不仅取决于前面的元素 (N1) 但也在序列的后续元素 (N 1) 上。双向 RNN 是 RNN 的简单变体,本质上由两个相互堆叠的独立 RNN 组成。双向深度 RNN 的架构包括多个隐藏状态,在正向和向后方向上都具有递归边,如图 13 所示。+

为了训练 RNN,有两种常用算法:Hochreiter 和 Schmidhuber 于 1997 年引入的 LSTM,以及 Goller 和 Kuchler 在 Goller 和 Kuchler, 1996Hochreiter 和 Schmidhuber, 1997 中开发的时间反向传播 (BPTT)。现代 RNN 经常使用 LSTM,因为它们在检测长期依赖关系方面比传统 RNN 更成功。LSTM-RNN 使用与传统 RNN 不同的函数进行隐藏状态计算。N 1 层输出和当前层输入构成了 LSTM 中存储单元的参数,称为单元或“黑匣子”。保留什么和删除什么是由这些单元或“黑匣子”决定的。然后,它们将输入、前一层和当前内存组合在一起。

  1. 下载:下载高分辨率图像(224KB)
  2. 下载 : 下载全尺寸图片

图 13.具有三个隐藏层的双向深度递归神经网络

BPTT 被称为基于梯度的方法,用于训练 RNN。每个输出的梯度或更具体地说是向量值函数,取决于当前时间步长的计算以及 N 的计算1 个时间戳。例如,如果我们有兴趣找到 t =3 处的梯度,我们将需要反向传播 N2 个步骤,并将渐变相加。这个过程被称为“随时间反向传播”。

4.5. 长短期记忆

长短期记忆网络是一种递归神经网络,由Hochreiter和Schmidhuber于1997年提出(Hochreiter和Schmidhuber,1997)。它的设计旨在解决梯度消失问题,这是传统递归神经网络中经常遇到的挑战,阻碍了它们在顺序数据中学习长期依赖关系的能力。LSTM通过整合通过门控机制选择性更新的存储单元来实现这一点。输入门、忘记门和输出门组成了LSTM网络。在网络的信息流管理中,每个门都有不同的功能。输入门负责确定当前输入中的任何相关数据并将其放入存储单元中。另一方面,遗忘门选择需要从存储单元中删除或遗忘哪些数据。此外,输出门还调节应使用存储单元中的哪些数据来创建 LSTM 网络的输出(Khan 等人,2020 年)。

LSTM 网络具有显著的优势,可以掌握顺序数据中的长期依赖关系。这一特性使它们对各种任务非常有价值,包括但不限于语音识别、语言建模和手写识别。此外,在应用于这些特定任务时,与传统 RNN 相比,LSTM 表现出卓越的性能(Zhao 等人,2023 年)。

然而,LSTM 的局限性之一是它们的计算复杂性,因为它们比传统 RNN 具有更多的参数。这可能会使他们的训练速度变慢,并且记忆量更大。此外,LSTM 的门控机制在模拟某些类型的时间依赖关系(例如周期性模式)方面可能不那么有效(Zhao 等人,2023 年)。

  1. 下载 : 下载高分辨率图片 (255KB)
  2. 下载 : 下载全尺寸图片

图 14.嵌入的命名法。

4.6. 门控循环单元

GRU是(Chung等人,2014)引入的LSTM变体,旨在增强长期记忆并简化标准LSTM模型。在各个领域都取得了优异的成绩。GRU 将遗忘门和输入门组合到一个更新门中,是 RNN 变体中的热门选择。其主要目标是通过结合允许在网络内进行选择性内存更新的门控机制来解决传统RNN中观察到的梯度消失问题。GRU由两个主门组成:复位门和更新门。复位门确定忽略先前隐藏状态的哪些分量。另一方面,更新门控制当前输入和先前隐藏状态的保存程度(Phua 等人,2022 年)。

与 LSTM 相比,GRU 的主要优势之一是它们的计算效率,因为它们具有更少的参数并且可以更快地进行训练。由于它们的门控机制,它们还能够处理更长的数据序列,这使得它们对 NLP 和语音识别任务特别有用。但是,GRU 的局限性之一是,在某些需要精确长期内存存储的任务中,它们的性能可能不如 LSTM。此外,与LSTM相比,GRU的门控机制在模拟复杂的时间动力学方面可能不那么有效(Dey和Salem,2017)。

5. 词嵌入

词嵌入是一种用于将单词表示为固定长度连续实数向量的技术。通过将词汇表中的单词映射到潜在向量空间,它可以对具有相似上下文的单词进行分组。词嵌入是语言建模和特征学习的一种有价值的方法,因为它将单词转换为捕获其句法和语义信息的向量(Wang et al., 2020aZhang et al., 2018)。它也被称为文本矢量化/单词嵌入。单词嵌入的 DL 方法最近受到了相当大的关注(Bhattarai 等人,2023 年)。词嵌入有许多应用,特别是在 NLP 任务中,其中词嵌入作为输入数据或直接作为文本数据特征提供。词性标记、情感分类、机器翻译、NER、文本分析、句法分析、口语分析、问答、文本蕴涵和基于物联网的系统是可以从词嵌入中受益的一些核心领域(Li and Yang, 2018Wang et al., 2020b).从广义上讲,词嵌入分为两类:(a)上下文相关嵌入和(b)上下文无关嵌入,也称为经典嵌入(Wang et al., 2020a)。图 14 显示了嵌入方法的命名法。“经典”词嵌入是与上下文无关的方法,它使用主要基于浅层神经网络模型或共现矩阵的语言模型 (LM) 获取解释。与上下文无关的词嵌入相反,上下文相关方法根据使用该词的上下文信息发现同一类型单词的独特嵌入。

5.1. 上下文无关嵌入

这种嵌入已被证明可以在预训练后将隐藏的语义特征封装在大型数据集中。下面提供了流行的经典单词嵌入模型列表。

5.1.1. word2vec

Word2vec 是一个双层神经网络,可将单词“矢量化”以处理文本。它最初是由Mikolov等人(2013)提出的。Word2vec 是一组模型架构和优化技术,用于从大型语料库中学习词嵌入,而不是单一算法。Word2vec学习的嵌入在广泛的NLP任务中表现良好。它使用两种方法来生成输入文本的矢量。一个是连续的单词袋(CBOW),另一个是跳过语法(SG)模型(Church,2017)。这两种方法的训练都是使用神经模型实现的。CBOW 架构利用周围的单词来预测当前/目标单词。在这种架构中,单词的顺序并不重要,由于这种现象,它被称为单词模型袋。但是,word2vec 的另一个变体 SG 模型与 CBOW 模型相反。它试图预测给定当前单词/目标单词的上下文单词。两种模式都有其优点和缺点。在最初的研究(Mikolov等人,2013)中,作者提到SG模型非常适合小型数据集,而CBOW速度更快,并且为频繁出现的单词生成更好的表示。

5.1.2. 用于词表示的全局向量

词表示的全局向量 (GloVe) 是 Pennington、Socher 和 Manning 于 2014 年在斯坦福大学引入的 word2vec 模型的扩展版本(Pennington 等人,2014 年)。Global Vectors for Word Representation (GloVe) 是 Pennington、Socher 和 Manning 于 2014 年在斯坦福大学引入的 word2vec 模型的扩展版本。GloVe 是一种通过无监督学习生成词向量表示的新方法。与其前身不同,GloVe强调词向量空间中的线性子结构,并在训练时使用语料库中单词共现的全局统计数据(Pennington等人,2014)。这一独特的功能使其有别于同类型号。这与Mikolov等人提出的word2vec skipgram模型类似。2013 年,纳入了潜在语义分析 (LSA) 的各个方面,以收集全球统计数据,同时收集本地统计数据。在单词相似性任务中,与Word2vec相比,GloVe表现出了更好的性能。预训练的词向量可以从斯坦福GloVe主页访问,并为进一步研究提供了宝贵的资源(Mikolov等人,2013)。

5.1.3. 快速文本

FastText 是另一种流行的词嵌入和分类模型,属于 Facebook 研究团队(Bojanowski 等人,2017 年)于 2017 年提出的“经典”嵌入模型家族。该模型已经确立了自己在NLP社区中的领导者地位,并且可以成为经典嵌入模型的可行替代方案,该模型包括单词向量和其他功能。FastText 模型与 word2vec 有很大不同,因为向量模型 CBOW、SG 和 GloVE 认为每个项都是必须发现向量表示的最简单形式,而 FastText 认为项由 n 个字符组成,其中 n 的范围可以从 1 个字符到项的长度(Wang et al., 2020a). FastText 的新单词表示模型与 word2vec 或 glove 相比