用于句子分类的卷积神经网络

尹金纽约大学yhk255@nyu.edu

抽象的

我们报告了一系列卷积神经网络（CNN $)$ 在用于句子级分类任务的预训练词向量之上进行训练。我们证明，一个简单的 CNN 只需要很少的超参数调整和静态向量即可在多个基准测试中取得优异的结果。通过微调学习特定于任务的向量可以进一步提高性能。我们还建议对架构进行简单的修改，以允许使用特定于任务的向量和静态向量。本文讨论的 CNN 模型在 7 个任务中的 4 个上改进了现有技术，其中包括情感分析和问题分类。

1 简介

近年来深度学习模型在计算机视觉（Krizhevsky et al., 2012）和语音识别（Graves et al., 2013）方面取得了显着的成果。在自然语言处理中，深度学习方法的大部分工作都涉及通过神经语言模型学习词向量表示（Bengio 等人，2003 年；Yih 等人，2011 年；Mikolov 等人，2013 年）并在学习用于分类的词向量（Collobert et al., 2011）。词向量，其中词是从稀疏的、1-of- 中投影出来的

V

编码（这里

V

是词汇量）通过隐藏层到较低维度的向量空间，本质上是特征提取器，在其维度中对单词的语义特征进行编码。在这种密集表示中，语义上接近的单词在较低维向量空间中的欧几里德距离或余弦距离同样接近。

卷积神经网络 (CNN) 利用具有应用于局部特征的卷积滤波器的层（LeCun 等人，1998）。 CNN 模型最初是为计算机视觉而发明的，后来被证明对 NLP 有效，并在语义解析 (Yih et al., 2014)、搜索查询检索 (Shen et al., 2014)、句子建模 (Kalchbrenner) 方面取得了优异的结果等人，2014），以及其他传统的 NLP 任务（Collobert 等人，2011）。

在目前的工作中，我们训练了一个简单的 CNN，在从无监督神经语言模型获得的词向量之上有一层卷积。这些载体由 Mikolov 等人训练。 (2013) 基于 1000 亿字的 Google 新闻，并且是公开的。

^{1}

我们最初保持词向量静态并仅学习模型的其他参数。尽管对超参数进行了很少的调整，但这个简单的模型在多个基准上取得了优异的结果，这表明预训练的向量是可用于各种分类任务的“通用”特征提取器。通过微调学习特定于任务的向量可以带来进一步的改进。最后，我们描述了对架构的简单修改，以允许通过具有多个通道来使用预训练向量和特定于任务的向量。

我们的工作在哲学上与 Razavian 等人相似。（2014）表明，对于图像分类，从预训练的深度学习模型获得的特征提取器在各种任务上都表现良好，包括与训练特征提取器的原始任务非常不同的任务。

2 型号

该模型架构如图 1 所示，是 Collobert 等人的 CNN 架构的轻微变体。（2011）。让

x_{i} \in R^{k}

成为

k

对应的维度词向量

i

句子中的第-个单词。一句话的长度

n

（填充的地方

图 1：示例句子具有两个通道的模型架构。

必要）表示为

x_{1 : n} = x_{1} \oplus x_{2} \oplus \dots \oplus x_{n}

在哪里

\oplus

是连接运算符。一般来说，让

x_{i : i + j}

参考单词的连接

x_{i}, x_{i + 1}, \dots, x_{i + j}

。卷积运算涉及滤波器

w \in R^{h k}

，它应用于一个窗口

h

产生新特征的单词。例如，一个特征

c_{i}

是从单词窗口生成的

x_{i : i + h - 1}

经过

c_{i} = f (w \cdot x_{i : i + h - 1} + b)

这里

b \in R

是一个偏置项并且

f

是非线性函数，例如双曲正切。该过滤器应用于句子中每个可能的单词窗口

{x_{1 : h}, x_{2 : h + 1}, \dots, x_{n - h + 1 : n}}

生成特征图

c = [c_{1}, c_{2}, \dots, c_{n - h + 1}]

和

c \in R^{n - h + 1}

。然后，我们在特征图上应用最大超时池化操作（Collobert et al., 2011）并取最大值

\hat{c} = max {c}

作为与该特定过滤器相对应的特征。这个想法是为每个特征图捕获最重要的特征（具有最高价值的特征）。这种池化方案自然会处理可变的句子长度。

我们已经描述了从一个过滤器中提取一个特征的过程。该模型使用多个滤波器（具有不同的窗口大小）来获取多个特征。这些特征形成倒数第二层，并传递到完全连接的 softmax 层，其输出是标签上的概率分布。

在其中一种模型变体中，我们尝试使用两个词向量“通道”——一个在整个训练过程中保持静态，另一个通过反向传播进行微调（第 3.2 节）。

^{2}

在多通道架构中，如图 1 所示，每个滤波器都应用于两个通道，并将结果相加来计算

c_{i}

在方程（2）中。该模型在其他方面等效于单通道架构。

2.1 正则化

对于正则化，我们在倒数第二层上使用 dropout，并限制

l_{2}

-权重向量的范数（Hinton et al., 2012）。 Dropout通过随机drop-ie，设置为零-a比例来防止隐藏单元的共同适应

p

前向传播期间隐藏单元的数量。也就是说，给定倒数第二层

z = [{\hat{c}}_{1}, \dots, {\hat{c}}_{m}]

（请注意，这里我们有

m

过滤器），而不是使用

y = w \cdot z + b

对于输出单元

y

在前向传播中，dropout 使用

y = w \cdot (z \circ r) + b

在哪里

\circ

是逐元素乘法运算符，并且

r \in R^{m}

是具有概率的伯努利随机变量的“掩蔽”向量

p

为 1。梯度仅通过未屏蔽的单元反向传播。在测试时，学习到的权重向量按比例缩放

p

这样

\hat{w} = p w

，和

\hat{w}

用于（不丢失）对未见过的句子进行评分。我们另外约束

l_{2}

-通过重新缩放权重向量的范数

w

拥有

‖ w ‖_{2} = s

每当

‖ w ‖_{2} > s

在梯度下降步骤之后。

数据	$c$	$l$	$N$	$\| V \|$	$\| V_{pre} \|$	测试
MR	2	20	10662	18765	16448	CV
SST-1	5	18	11855	17836	16262	2210
SST-2	2	19	9613	16185	14838	1821
主题	2	23	10000	21323	17913	CV
TREC	6	10	5952	9592	9125	500
CR	2	19	3775	5340	5046	CV
MPQA	2	3	10606	6246	6083	CV

表 1：标记化后数据集的汇总统计数据。

c

：目标类别的数量。

l

：平均句子长度。

N

：数据集大小。

| V |

：词汇量。

| V_{pre} |

：预训练词向量集中存在的词数。测试：测试集大小（CV 意味着没有标准的训练/测试分割，因此使用 10 倍 CV）。

3 数据集和实验设置

我们在各种基准上测试我们的模型。数据集的汇总统计见表1。

MR：电影评论每条评论一句话。分类涉及检测正面/负面评论（Pang 和 Lee，2005）。 $^{3}$
SST-1：斯坦福情绪树库 - MR 的扩展，但提供了训练/开发/测试分割和细粒度标签（非常积极、积极、中立、消极、非常消极），由 Socher 等人重新标记。（2013）。 $^{4}$
SST-2：与 SST-1 相同，但删除了中立评论并添加了二进制标签。
Subj：主观性数据集，其任务是将句子分类为主观或客观（Pang 和 Lee，2004）。
TREC：TREC 问题数据集任务涉及将问题分为 6 种问题类型（问题是否与人、位置、数字信息等有关）（Li 和 Roth，2002）。 $^{5}$
CR：各种产品（相机、MP3 等）的客户评论。任务是预测正面/负面评论（Hu and Liu，2004）。 $^{6}$

MPQA：MPQA 数据集的意见极性检测子任务（Wiebe 等人，2005）。 $^{7}$

3.1 超参数和训练

对于我们使用的所有数据集：修正线性单位、过滤窗口（

h

）的 3、4、5 个，每个有 100 个特征图，丢失率

(p)

的

0.5, l_{2}

约束

(s)

3 ，小批量大小为 50 。这些值是通过 SST-2 开发集上的网格搜索选择的。

除了在开发集上提前停止之外，我们不会执行任何特定于数据集的调整。对于没有标准开发集的数据集，我们随机选择

10 %

将训练数据作为开发集。训练是通过使用 Adadelta 更新规则对打乱的小批量进行随机梯度下降来完成的（Zeiler，2012）。

3.2 预训练词向量

在没有大型监督训练集的情况下，使用从无监督神经语言模型获得的词向量来初始化词向量是一种提高性能的流行方法（Collobert et al., 2011; Socher et al., 2011; Iyyer et al., 2014）。我们使用公开可用的 word 2 vec 向量，这些向量是根据 Google 新闻中的 1000 亿个单词进行训练的。这些向量的维数为 300，并使用连续词袋架构进行训练（Mikolov 等人，2013）。预训练单词集中不存在的单词被随机初始化。

3.3 模型变化

我们尝试了该模型的几种变体。

CNN-rand：我们的基线模型，其中所有单词都是随机初始化的，然后在训练过程中进行修改。
CNN-static：具有来自 word2vec 的预训练向量的模型。所有单词（包括随机初始化的未知单词）都保持静态，并且仅学习模型的其他参数。
CNN-non-static：与上面相同，但预训练向量针对每个任务进行了微调。
CNN-多通道：具有两组词向量的模型。每组向量都被视为一个“通道”，并且应用每个滤波器

模型	MR	SST-1	SST-2	主题	TREC	CR	MPQA
CNN-兰德	76.1	45.0	82.7	89.6	91.2	79.8	83.4
CNN-静态	81.0	45.5	86.8	93.0	92.8	84.7	$89.6$
CNN-非静态	$81.5$	48.0	87.2	93.4	93.6	84.3	89.5
CNN-多频道	81.1	47.4	$88.1$	93.2	92.2	$85.0$	89.4
RAE（Socher 等人，2011）	77.7	43.2	82.4	-	-	-	86.4
MV-RNN（Socher 等人，2012）	79.0	44.4	82.9	-	-	-	-
RNTN（Socher 等人，2013）	-	45.7	85.4	-	-	-	-
DCNN（Kalchbrenner 等人，2014）	-	48.5	86.8	-	93.0	-	-
Paragraph-Vec（Le 和 Mikolov，2014）	-	$48.7$	87.8	-	-	-	-
CCAE（赫尔曼和布伦瑟姆，2013）	77.8	-	-	-	-	-	87.2
Sent-Parser（Dong 等人，2014）	79.5	-	-	-	-	-	86.3
NBSVM（Wang 和 Manning，2012）	79.4	-	-	93.2	-	81.8	86.3
MNB（王和曼宁，2012）	79.0	-	-	$93.6$	-	80.0	86.3
G-辍学（Wang 和 Manning，2013）	79.0	-	-	93.4	-	82.1	86.1
F-辍学（Wang 和 Manning，2013）	79.1	-	-	$93.6$	-	81.9	86.3
树-CRF（Nakakawa 等人，2010）	77.3	-	-	-	-	81.4	86.1
CRF-PR（Yang 和 Cardie，2014）	-	-	-	-	-	82.7	-
支持向量机 $_{S}$ （席尔瓦等人，2011）	-	-	-	-	$95.0$	-	-

表 2：我们的 CNN 模型与其他方法的结果。 RAE：带有来自维基百科的预训练词向量的递归自动编码器（Socher et al., 2011）。 MV-RNN：带有解析树的矩阵向量递归神经网络（Socher et al., 2012）。 RNTN：具有基于张量的特征函数和解析树的递归神经张量网络（Socher et al., 2013）。 DCNN：具有 k-max 池化的动态卷积神经网络（Kalchbrenner 等人，2014）。 Paragraph-Vec：段落向量之上的逻辑回归（Le 和 Mikolov，2014）。 CCAE：具有组合类别语法运算符的组合类别自动编码器（Hermann 和 Blunsom，2013）。 Sent-Parser：特定于情感分析的解析器（Dong et al., 2014）。 NBSVM、MNB：朴素贝叶斯 SVM 和具有单二元模型的多项式朴素贝叶斯，来自 Wang 和 Manning (2012)。 G-Dropout、F-Dropout：Wang 和 Manning 的高斯 Dropout 和快速 Dropout（2013）。 Tree-CRF：具有条件随机字段的依赖树（Nakakawa 等人，2010）。 CRF-PR：具有后验正则化的条件随机场（Yang 和 Cardie，2014）。支持向量机

_{S}

：SVM 具有 uni-bi-trigrams、wh 词、中心词、POS、解析器、上位词和 60 个手工编码规则作为 Silva 等人的特征。（2011）。

到两个通道，但梯度仅通过其中一个通道反向传播。因此，该模型能够微调一组向量，同时保持另一组静态。两个通道均使用 word2vec 初始化。

为了区分上述变化与其他随机因素的影响，我们通过在每个数据集中保持统一来消除其他随机性来源（CV 折叠分配、未知词向量的初始化、CNN 参数的初始化）。

4 结果与讨论

我们的模型与其他方法的结果列于表 2。我们的所有随机初始化单词 (CNN-rand) 的基线模型本身表现不佳。虽然我们预计通过使用预先训练的向量可以获得性能提升，但我们对提升的幅度感到惊讶。即使是具有静态向量的简单模型（CNN-static）也表现得非常好，与利用复杂池化方案（Kalchbrenner 等人，2014）或需要预先计算解析树（Socher 等人）的更复杂的深度学习模型相比，给出了有竞争力的结果。等，2013）。这些结果表明，预训练向量是良好的“通用”特征提取器，并且可以跨数据集使用。微调每个任务的预训练向量可以进一步改进（CNN -非静态）。

4.1 多通道与单通道模型

我们最初希望多通道架构能够防止过度拟合（通过确保学习的向量不会偏离原始值太远），从而比单通道模型效果更好，尤其是在较小的数据集上。然而，结果好坏参半，有必要进一步规范微调过程。例如，可以不为非静态部分使用额外的通道，而是保留单个通道，但使用允许在训练期间修改的额外维度。

坏的	最相似的词
	静态通道	非静态通道
	好的	糟糕的
	糟糕的	可怕
	可怕	糟糕的
	糟糕的	愚蠢的
$n$ 't	伟大的	好的
	坏的	体面的
	了不起	坚硬的
	体面的	了不起
$n$	操作系统	不是
	加州	绝不
	爱尔兰	没有什么
	窝	两者都不
	全部的	2,500
	杰兹	郁郁葱葱
	改变者	美丽的
	德西亚	了不起
	深渊	但
	灭亡	龙
	英勇	a

表 3：训练后 SST-2 数据集上的多通道模型的静态通道中的向量（左）和非静态通道中的微调向量（右）的前 4 个相邻词（基于余弦相似度）。

4.2 静态与非静态表示

与单通道非静态模型的情况一样，多通道模型能够微调非静态通道，使其更适合当前的任务。例如，word2vec 中的 good 与 bad 最相似，大概是因为它们在语法上（几乎）是等价的。但对于在 SST-2 数据集上微调的非静态通道中的向量，情况不再如此（表 3）。同样，在表达情感方面，“好”可以说更接近“好”，而不是“太棒”，这确实反映在学习的向量中。

对于不在预训练向量集中的（随机初始化的）标记，微调可以让它们学习更有意义的表示：网络了解到感叹号与热情的表达相关联，而逗号是连接词（表 3）。

4.3 进一步观察

我们报告了一些进一步的实验和观察：

卡尔奇布伦纳等人。（2014）报告了 CNN 的结果要差得多，该 CNN 的架构与我们的单通道模型基本相同。例如，他们的带有随机初始化单词的 Max-TDNN（时间延迟神经网络）获得 $37.4 %$ 在 SST-1 数据集上，相比 $45.0 %$ 对于我们的模型。我们将这种差异归因于我们的 CNN 具有更大的容量（多个过滤器宽度和特征图）。
事实证明，Dropout 是一个很好的正则化器，使用比必要的网络更大的网络并简单地让 Dropout 对其进行正则化就可以了。持续添加辍学 $2 % - 4 %$ 相对性能。
当随机初始化不在 word2vec 中的单词时，我们通过对每个维度进行采样获得了轻微的改进 $U [- a, a]$ 在哪里 $a$ 选择使得随机初始化的向量与预训练的向量具有相同的方差。看看在初始化过程中采用更复杂的方法来镜像预训练向量的分布是否能带来进一步的改进将会很有趣。
我们简短地试验了由 Collobert 等人训练的另一组公开可用的词向量。（2011）维基百科上， $^{8}$ 并发现 word2vec 的性能要优越得多。目前尚不清楚这是否是米科洛夫等人造成的。 (2013) 的架构或 1000 亿字的 Google 新闻数据集。
Adadelta (Zeiler, 2012) 给出了与 Adagrad (Duchi et al., 2011) 类似的结果，但需要更少的 epoch。

5 结论

在目前的工作中，我们描述了一系列基于 word2vec 构建的卷积神经网络的实验。尽管对超参数进行了很少的调整，但具有一层卷积的简单 CNN 的性能却非常好。我们的结果进一步证实了词向量的无监督预训练是 NLP 深度学习的重要组成部分。

致谢

我们要感谢 Yann LeCun 和匿名审稿人提供的有用的反馈和建议。

参考

Y. Bengio、R. Ducharme、P. Vincent。 2003.神经概率语言模型。机器学习研究杂志 3：1137-1155。

R. Collobert、J. Weston、L. Bottou、M. Karlen、K. Kavukcuglu、P. Kuksa。 2011 年。自然语言处理（几乎）从头开始。机器学习研究杂志 12：2493-2537。

J.杜奇、E.哈赞、Y.辛格。 2011 用于在线学习和随机优化的自适应次梯度方法。机器学习研究杂志，12：2121-2159。

L. 董，F. 魏，S. 刘，M. 周，K. 徐。 2014。情感分类的统计解析框架。 CoRR，abs/1401.6330。

A. 格雷夫斯、A. 穆罕默德、G. 辛顿。 2013. 使用深度循环神经网络进行语音识别。 2013 年 ICASSP 会议论文集。

G. Hinton、N. Srivastava、A. Krizhevsky、I. Sutskever、R. Salakhutdinov。 2012.通过防止特征检测器的共同适应来改进神经网络。 CoRR，abs/1207.0580。

K.赫尔曼，P.布伦瑟姆。 2013.语法在组合语义向量空间模型中的作用。 2013 年 ACL 会议论文集。

胡先生，刘B. 2004。挖掘和总结客户评论。在 ACM SIGKDD 2004 年会议记录中。

M. Iyyer、P. Enns、J. Boyd-Graber、P. Resnik 2014。使用递归神经网络的政治意识形态检测。 2014 年 ACL 会议论文集。

N. Kalchbrenner、E. Grefenstette、P. Blunsom。 2014.用于建模句子的卷积神经网络。 2014 年 ACL 会议论文集。

A. Krizhevsky、I. Sutskever、G. Hinton。 2012。使用深度卷积神经网络的 ImageNet 分类。 2012 年 NIPS 会议记录。

Q.勒，T.米科洛夫。 2014.句子和文档的分布式表示。 ICML 2014 会议论文集。

Y. LeCun、L. Bottou、Y. Bengio、P. Haffner。 1998.基于梯度的学习应用于文档识别。 IEEE 会议录，86(11):22782324，11 月。

X.李，D.罗斯。 2002.学习问题分类器。在 ACL 2002 年会议记录中。

T. Mikolov、I. Sutskever、K. Chen、G. Corrado、J. Dean。 2013.单词和短语的分布式表示及其组合性。 2013 年 NIPS 会议记录。

T.中川，K.干，S.黑桥。 2010.使用带有隐藏变量的条件随机场进行基于依赖树的情感分类。 2010 年 ACL 会议论文集。

B. 庞，L. 李。 2004. 情感教育：基于最小割点的主观性概括的情感分析。在 ACL 2004 年会议记录中。

B. 庞，L. 李。 2005. 看到星星：利用阶级关系进行与评级量表相关的情感分类。在 ACL 2005 年会议记录中。

AS Razavian、H. Azizpour、J. Sullivan、S. Carlsson 2014。CNN 现成专题：令人震惊的基线。 CoRR，abs/1403.6382。

Y.沉，X.何，J.高，L.邓，G.Mesnil。 2014。使用卷积神经网络学习语义表示进行网络搜索。 2014 年 WWW 会议记录。

J.席尔瓦、L.科赫尔、A.门德斯、A.威彻特。 2011.问题分类中从符号信息到子符号信息。人工智能评论，35(2)：

137 - 154

。

R. Socher、J. Pennington、E. Huang、A. Ng、C. Manning。 2011. 用于预测情感分布的半监督递归自动编码器。 2011 年 EMNLP 会议记录。

R. Socher、B. Huval、C. Manning、A. Ng。 2012.通过递归矩阵向量空间的语义组合性。 2012 年 EMNLP 会议记录。

R. Socher、A. Perelygin、J. Wu、J. Chuang、C. Manning、A. Ng、C. Potts。 2013.情感树库上语义组合的递归深度模型。 2013 年 EMNLP 会议记录。

J. Wiebe、T. Wilson、C. Cardie。 2005.用语言注释观点和情感的表达。语言资源与评估，39（2-3）：165210。

S.王，C.曼宁。 2012.基线和二元组：简单、良好的情绪和主题分类。 2012 年 ACL 会议论文集。

S.王，C.曼宁。 2013.快速辍学培训。 ICML 2013 会议论文集。

B.杨，C.卡迪。 2014.具有后验正则化的句子级情感分析的上下文感知学习。 2014 年 ACL 会议论文集。

W. Yih、K. Toutanova、J. Platt、C. Meek。 2011.学习文本相似性度量的判别性预测。第十五届计算自然语言学习会议论文集，

247 - 256

。

W. Yih，X. He，C. Meek。 2014.单关系问答的语义解析。 2014 年 ACL 会议论文集。

M·泽勒。 2012.Adadelta：一种自适应学习率方法。 CoRR，abs/1212.5701。

$^{1}$ https://code.google.com/p/word2vec/
$^{2}$ 我们采用计算机视觉语言，其中彩色图像具有红色、绿色和蓝色通道。
$\overset{―}{^{3} https://www.cs.cornell.edu/people/pabo/movie-review-data/}$ $^{4} http : / / n l p . s t a n f o r d . e d u /$ 情感/数据实际上是在短语级别提供的，因此我们在短语和句子上训练模型，但仅在测试时对句子进行评分，如 Socher 等人中所示。 (2013)，Kalchbrenner 等人。 (2014)，以及 Le 和 Mikolov (2014)。因此，训练集比表 1 中列出的要大一个数量级。

$^{5} http / / /$ cogcomp.cs.illinois.edu/数据/QA/QC/

$^{6}$ http://www.cs.uic.edu/liub/FBS/sentiment-analysis.html
$^{7}$ http://www.cs.pitt.edu/mpqa/
$^{8}$ http://ronan.collobert.com/senna/