增强的依赖性
我们一直打算将通用依赖关系表示法用于关系提取或生物医学事件提取等浅层自然语言理解任务中。
对于此类任务,人们通常会对某些实体之间的关系感兴趣,例如两个人之间的关系或一种蛋白质是否与另一种蛋白质相互作用。
UD 特别适合此类任务,因为 UD 树包含许多内容词之间的直接依赖关系,而且许多依赖关系标签提供了有关两个内容词之间关系类型的大量信息。
然而,对于某些结构来说,在 UD 树中,两个相关内容词之间的依赖路径可能很长,这就使得确定内容词之间的关系变得复杂。此外,一些依赖关系类型,如 obl
或 nmod
会被用于许多不同类型的参数和修饰词,因此它们本身的信息量并不大。基于这些原因,我们还提供了增强表示法的指导原则,它使词与词之间的一些隐含关系更加明确,并增强了一些依存关系标签,以方便对参数和修饰语的类型进行消歧。
增强型 UD 图表可能包含以下部分或全部增强功能,具体说明见下文各节。如果语料库没有注释指南中定义的任何增强功能,则 DEPS 一栏中应始终带有下划线字符。
也就是说,对于语料库中的所有句子,增强图不应该只是基本树的完全复制。否则,就会给用户造成一种印象,以为会有一些增强,而实际上并没有。
请注意,增强图并不一定是基本树的超图,也就是说,增强图并不需要包含所有的基本依赖关系。因此,增强图的所有关系(也包括基本 UD 树中存在的关系)都必须包含在 CoNLL-U 文件的 DEPS 列中。详情请参见 CoNLL-U 文件格式的具体说明。
此外,DEPS 中增强图中的依赖关系标签可能包含某些扩展,而这些扩展在 DEPREL 列的基本关系类型中是不允许的。
DEPREL 中限制关系标签的正则表达式非常简单:标签只能包含小写英文字母和最多一个冒号,冒号用于分隔标签的通用部分和特定语言部分: ^[a-z]+(:[a-z]+)?$
。相比之下,DEPS 中的关系标签最多可以包含三个冒号,分隔四个部分。其中一个部分(绝不是第一个部分)还可以包含小写 Unicode 字母和下划线字符: ^[a-z]+(:[a-z]+)?(:[\p{Ll}\p{Lm}\p{Lo}\p{M}]+(_[\p{Ll}\p{Lm}\p{Lo}\p{M}]+)*)?(:[a-z]+)?$
。只有第一部分(通用关系)是必须的。其他部分是可选的,但如果出现,则必须按照下文所述的顺序出现。我们将在本页稍后部分对额外部分进行更详细的解释;以下是简要说明:
通用依存关系。除了基本表示法中定义的 37 种关系外,该关系还可以是 ref 。
基本表示法中记录的关系子类型(特定语言或更一般)。
字符串 xsubj ,表示 xcomp 谓词的外部主语关系。该扩展只与 nsubj、csubj 及其子类型(如 nsubj:pass)一起使用。它不能与下面描述的其他扩展结合使用,因为它们不适用于主语。
大小写和类似信息--作为case
、mark
或cc
出现的副词或连词,依附于与父节点的关系被增强的节点。请注意,这是增强关系标签中唯一允许使用非 ASCII 字母的部分。单词应规范化(小写,无错别字),也就是说,一般情况下,我们取其lemma。
但是,如果大小写/标记相关联的是一个固定的多词表达式,则表达式的词法不一定由各个成员词的词法组成。例如,表示英语表达式 "As Opposed To "的字符串是as_opposed_to
。也就是说,大小写从 "As "规范化为 "as "等,但 "opposed "不会被其词目 "oppose "替换,因为表达式是固定的。
同样,语法化的非谓语连接词,如 "regard"("关于"),在某些语言中(如果特定语言的准则有要求),尽管被附加为大小写,但仍被标记为 VERB,因此其外延将是动词性的("regard");然而,相应的 deprel 外延应该是语法化的形式,即 "regard"("关于")。
特定语言指南还可能规定,某些同义词(如 "朝 "和 "向")尽管词性不同,但应映射到同一个增强标签上。我们使用下划线字符("_")来连接成员词。
如果一个节点有多个情况标记,而这些情况标记没有注释为固定表达式,例如 "停业 "的out_of
,也可以采用同样的方法。
Case 信息--与父节点关系正在增强的节点的形态 Case。其值与 Case 特征的值相对应,但小写(例如,用gen
代替Gen
)。与形态特征不同,不允许使用带逗号的多值(Case=Acc,Dat
)。增强关系中的大小写信息必须完全消歧。
省略号
(另请参阅省略号指南)。
在增强表示法中,我们在谓词被省略的分句中添加了特殊的空(null)节点。
(虽然该节点在 CoNLL-U 格式规范中被称为 "空 "节点,虽然它并不与公开的表面标记相对应,但它的 FORM、LEMMA、UPOS、XPOS 和 FEATS 可以选择性地用假定值填充;在这里,它们可以从谓词的公开出现处复制)。
请注意,在这种情况下,增强型 UD 图并不是基本树的超图,因为基本树包含 orphan
关系,而增强型 UD 图中没有这些关系。
向连接词传播传入的依赖关系
在基本表示法中,连词短语的督词和从属词都与第一个连词相连。这通常会导致内容词之间的依赖路径非常长。因此,增强表示法也包含了短语的其他连接词与治理词和从属词之间的依赖关系。
连体的主体和客体
当主语是连词名词短语时,每个连词都与谓语相连。
连体物体也是如此。
在集体主体或客体的情况下,这会导致略微奇怪的依赖关系:
不过,由于分配式读法和集合式读法之间的区别往往取决于语境,因此我们采取了最简单的方法,总是将所有连接词附加到谓词上。
当主语连接到控制谓语或提升谓语时,矩阵动词和每个连接词之间以及嵌入动词和每个连接词之间都存在依存关系。
连接修改器
连词修饰短语中的每个连词都与修饰短语的省长相连。例如,下面的短语包含一个修饰名词的连缀形容词短语。在增强表示法中,名词 river 和第二个连接词 wide 之间多了一个 amod
关系。
从连接词向外传播依赖关系
在基本表示法中,连词短语的督词和从属词都与第一个连词相连。这通常会导致内容词之间的依赖路径非常长。因此,增强表示法也包含了短语的其他连接词与治理词和从属词之间的依赖关系。
连缀动词和动词短语
当两个动词共用宾语(或其他补语)时,连用动词的主语和宾语都附在每个连词上。
但是,如果第二个动词的补语不是共用的,则只有共用的从句才会附加到每个连词上。
同样,增强表示法也能区分第一个动词的私人从句。但要注意的是,在这种情况下,它不能从基本表示法中自动推断出来。
受控/饲养对象
基本树缺少受控动词与其控制者之间的主语依存关系,也缺少嵌入动词与其升起主语之间的主语依存关系。在增强图中,嵌入动词和矩阵分句的主语之间有额外的从属关系。这种依存关系可以通过扩展名(子类型) :xsubj
来识别。
基本 | 增强型 |
---|---|
关系从句
在基本树中,相对代词与相对分句的主谓词相连(通常是 nsubj
或 obj
关系)。在相应的增强图中,相对代词是通过特殊的 ref
关系连接到它的前件的,而前件是作为基本树中相对代词的父节点的从属节点连接的。通常情况下,这个父节点是相对分句的主谓词,但并不总是这样(见下面的例子)。
在没有明确相对代词的情况下,增强图中没有 ref
关系,但前置词仍被注释为相对从句中某个节点的从属关系,这取决于它在相对从句中扮演的角色。
请注意,这种图形包含一个循环。
副词相对修饰语也受到同样的对待。
增强关系包括深层句法关系。因此,在案例标记语言中,增强的从属关系可能会将动词从属关系连接起来,而这些动词从属关系并不在表面句法所要求的预期形态情况下。
在下面的捷克语例句中,相对修饰短语 v němž "在其中 "必须使用定位格形式 ( Case=Loc
)。如果这是一个主句,那么指代词 dům "房子 "也必须是定位格:v domě "房子里"。然而,这里是名词性从句( Case=Nom
),而且根据该语言的形态-句法规则,强化从句 obl
转为名词性从句是我们意想不到的。
相对要素并不总是直接取决于相对分句的谓语。它可以嵌入得更深,如下面的例子。
如果相对从句有一个名词性谓语,则相对代词可以占据从句的首部位置。
与大多数相对分句不同的是,在这里,基本树中相对代词的父代并不在相对分句中,它的前置词也不会有额外的增强关系将其连接到相对分句中的(不存在的)父代。取而代之的是,我们在相对分句的 nsubj
中从前者添加一个 nsubj
关系(并删除相对代词和主语之间相应的 nsubj
关系)。 acl:relcl
应与基本从句中的关系相同。
案例信息
在非核心隶属关系的关系名中添加介词(或大小写信息),往往可以明确其语义作用。因此,我们用修饰语的大小写信息来增强某些关系标签。被增强的关系是 nmod
、 acl
、 obl
和 advcl
;如果语言合理,一些核心关系也可能被增强: obj
, iobj
, ccomp
。情况信息可以用通过 case
关系附加的副词的词法来表示。对于分句,相应的信息可以用 mark
从属关系的词法来表示。大小写信息也可以用形态特征 Case 的值来表示。在某些语言中,既有状语情况,也有形态情况,它们的组合必须反映在增强关系中。
与此类似,增强型 UD 图也包含 conj
关系,这些关系用它们的协调连词进行了增强。这使得两个短语之间的协调类型更加明确,这对于有多个协调连词的短语尤其有用。
以下是适用的正式规则(摘自本页开头的摘要):
以case
或mark
或cc
的形式出现在与父节点的关系被增强的节点上的附加词或连接词。请注意,这是增强关系标签中唯一允许使用非 ASCII 字母的部分。单词应规范化(小写,无错别字),也就是说,一般情况下,我们取其lemma。
但是,如果大小写/标记相关联的是一个固定的多词表达式,则表达式的词法不一定由各个成员词的词法组成。例如,表示英语表达式 "As Opposed To "的字符串是as_opposed_to
。也就是说,大小写从 "As "规范化为 "as "等,但 "opposed "不会被其词目 "oppose "替换,因为表达式是固定的。
同样,语法化的非谓语连接词,如 "regard"("关于"),在某些语言中(如果特定语言的准则有要求),尽管被附加为大小写,但仍被标记为 VERB,因此其外延将是动词性的("regard");然而,相应的 deprel 外延应该是语法化的形式,即 "regard"("关于")。
特定语言指南还可能规定,某些同义词(如 "朝 "和 "向")尽管词性不同,但应映射到同一个增强标签上。我们使用下划线字符("_")来连接成员词。
如果一个节点有多个情况标记,而这些情况标记没有注释为固定表达式,例如 "停业 "的out_of
,也可以采用同样的方法。
即使不是固定表达,也可能出现多个case
或mark
节点。例如,荷兰语中有一种副词从句使用了两个标记词 om 和 te,第一个大致相当于英语中的 "so that",第二个是不定式标记词。这样,从句的输入依存关系将被标记为advcl:om_te
。
大小写标记可能是协调的,如 "他们将货物运往布拉格 "和 "从布拉格运出"。在这里,动词和名词之间有两种不同的关系:obl:to
和obl:from
。这两种关系都将添加到增强图中。
与父节点关系正在增强的节点的形态情况。值与 Case 特征的值相对应,但要小写(例如,用gen
代替Gen
)。与形态特征不同,不允许使用带逗号的多值(Case=Acc,Dat
)。增强关系中的大小写信息必须完全消歧。
在某些语言和情况下,形态格与词性格标记(附加格)相结合。
如果语言中的状语从现有的词形变化中选择一个子集,而且同一个状语在不同的词形变化中可能有不同的意义,那么这种方法就特别有用。
可能会出现这样的情况:两个介词是协调的,每个介词都选择了不同的词形变化情况,而名词只能满足其中一种情况的要求。例如,[cs] Lidé se rozutekli před a během útoku。"人们在袭击前和袭击中逃跑了"。第一个介词需要动名词,第二个介词需要属格,名词用属格。然而,增强图中的关系应为obl:před:ins
和obl:během:gen
。尽管当前句子中名词的表面形式不是语气词,其形态特征是Case=Gen
,但第一个关系应表示语气词。obl:před:gen
在语言中不存在,也没有意义。(但是请注意,这个介词并不是只有工具型,指称型也是可能的,而且obl:před:acc
和obl:před:ins
的意思也不一样)。
其他改进
一些后处理步骤,如将行为类似于定量定语的轻名词降级(如 Schuster 和 Manning(2016)中所述),可以提高依赖关系图在下游应用中的可用性。
然而,由于这些新增内容大多是高度特定的语言,我们并没有为这种表示法提供任何通用指南,而且上述新增内容之外的任何内容都不属于 UD 标准的一部分,不应添加到正式发布的树库中。
DZ:以下是一些补充意见,虽然它们不属于官方批准的指南的一部分,但我认为今后应考虑将其添加进来(根据树库的经验,这些树库已经包含了一些增强注释)。
虽然单个增强类型是可选的,但一旦在语料库的某处标注了特定的增强类型,作者就应在语料库的所有地方标注该类型。
对于某些增强类型,这一点无法自动检测,但很明显,用户会认为句子中不存在注释就意味着该现象不存在。
如果我们能从增强关系类型中识别出它代表了哪种增强类型,那将会非常有用(有些关系可能是两种增强类型结合的结果)。(某些关系可能是两种增强类型结合的结果)。Stanford Enhancer 至少可以为受控主题做到这一点(为新的增强关系生成nsubj:xsubj
,nsubj:pass:xsubj
,csubj:xsubj
或csubj:pass:xsubj
)。