这是用户在 2024-6-15 10:11 为 https://universaldependencies.org/u/overview/enhanced-syntax.html#undefined?focus=sent~1 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

主页 编辑页面 问题跟踪器


本页适用于 UD 版本 2。

 增强的依赖性


我们一直打算将通用依赖关系表示法用于关系提取或生物医学事件提取等浅层自然语言理解任务中。


对于此类任务,人们通常会对某些实体之间的关系感兴趣,例如两个人之间的关系或一种蛋白质是否与另一种蛋白质相互作用。


UD 特别适合此类任务,因为 UD 树包含许多内容词之间的直接依赖关系,而且许多依赖关系标签提供了有关两个内容词之间关系类型的大量信息。


然而,对于某些结构来说,在 UD 树中,两个相关内容词之间的依赖路径可能很长,这就使得确定内容词之间的关系变得复杂。此外,一些依赖关系类型,如 oblnmod 会被用于许多不同类型的参数和修饰词,因此它们本身的信息量并不大。基于这些原因,我们还提供了增强表示法的指导原则,它使词与词之间的一些隐含关系更加明确,并增强了一些依存关系标签,以方便对参数和修饰语的类型进行消歧。


增强型 UD 图表可能包含以下部分或全部增强功能,具体说明见下文各节。如果语料库没有注释指南中定义的任何增强功能,则 DEPS 一栏中应始终带有下划线字符。


也就是说,对于语料库中的所有句子,增强图不应该只是基本树的完全复制。否则,就会给用户造成一种印象,以为会有一些增强,而实际上并没有。


请注意,增强图并不一定是基本树的超图,也就是说,增强图并不需要包含所有的基本依赖关系。因此,增强图的所有关系(也包括基本 UD 树中存在的关系)都必须包含在 CoNLL-U 文件的 DEPS 列中。详情请参见 CoNLL-U 文件格式的具体说明。


此外,DEPS 中增强图中的依赖关系标签可能包含某些扩展,而这些扩展在 DEPREL 列的基本关系类型中是不允许的。


DEPREL 中限制关系标签的正则表达式非常简单:标签只能包含小写英文字母和最多一个冒号,冒号用于分隔标签的通用部分和特定语言部分: ^[a-z]+(:[a-z]+)?$ 。相比之下,DEPS 中的关系标签最多可以包含三个冒号,分隔四个部分。其中一个部分(绝不是第一个部分)还可以包含小写 Unicode 字母和下划线字符: ^[a-z]+(:[a-z]+)?(:[\p{Ll}\p{Lm}\p{Lo}\p{M}]+(_[\p{Ll}\p{Lm}\p{Lo}\p{M}]+)*)?(:[a-z]+)?$ 。只有第一部分(通用关系)是必须的。其他部分是可选的,但如果出现,则必须按照下文所述的顺序出现。我们将在本页稍后部分对额外部分进行更详细的解释;以下是简要说明:


  1. 通用依存关系。除了基本表示法中定义的 37 种关系外,该关系还可以是 ref

  2. 基本表示法中记录的关系子类型(特定语言或更一般)。

  3. 字符串 xsubj ,表示 xcomp 谓词的外部主语关系。该扩展只与 nsubj、csubj 及其子类型(如 nsubj:pass)一起使用。它不能与下面描述的其他扩展结合使用,因为它们不适用于主语。

  4. 大小写和类似信息--作为 casemarkcc 出现的副词或连词,依附于与父节点的关系被增强的节点。请注意,这是增强关系标签中唯一允许使用非 ASCII 字母的部分。单词应规范化(小写,无错别字),也就是说,一般情况下,我们取其lemma。


    但是,如果大小写/标记相关联的是一个固定的多词表达式,则表达式的词法不一定由各个成员词的词法组成。例如,表示英语表达式 "As Opposed To "的字符串是 as_opposed_to 。也就是说,大小写从 "As "规范化为 "as "等,但 "opposed "不会被其词目 "oppose "替换,因为表达式是固定的。


    同样,语法化的非谓语连接词,如 "regard"("关于"),在某些语言中(如果特定语言的准则有要求),尽管被附加为大小写,但仍被标记为 VERB,因此其外延将是动词性的("regard");然而,相应的 deprel 外延应该是语法化的形式,即 "regard"("关于")。


    特定语言指南还可能规定,某些同义词(如 "朝 "和 "向")尽管词性不同,但应映射到同一个增强标签上。我们使用下划线字符("_")来连接成员词。


    如果一个节点有多个情况标记,而这些情况标记没有注释为固定表达式,例如 "停业 "的 out_of ,也可以采用同样的方法。

  5. Case 信息--与父节点关系正在增强的节点的形态 Case。其值与 Case 特征的值相对应,但小写(例如,用 gen 代替 Gen )。与形态特征不同,不允许使用带逗号的多值( Case=Acc,Dat )。增强关系中的大小写信息必须完全消歧。

 省略号


(另请参阅省略号指南)。


在增强表示法中,我们在谓词被省略的分句中添加了特殊的空(null)节点。


(虽然该节点在 CoNLL-U 格式规范中被称为 "空 "节点,虽然它并不与公开的表面标记相对应,但它的 FORM、LEMMA、UPOS、XPOS 和 FEATS 可以选择性地用假定值填充;在这里,它们可以从谓词的公开出现处复制)。

I like tea and you coffee ._______nsubjccobjorphanconjpunct1
I like tea and you E5.1 coffee .________nsubjobjnsubjobjccconjpunct2
Mary wants to buy a book and Jenny a CD .___________detmarkdetccnsubjobjorphanxcompconjpunct3
Mary wants to buy a book and Jenny E8.1 E8.2 a CD ._________markdetxcompnsubjnsubjobjxcompccnsubjnsubjconjpunct____detxcompobjnsubjpunct4


请注意,在这种情况下,增强型 UD 图并不是基本树的超图,因为基本树包含 orphan 关系,而增强型 UD 图中没有这些关系。


向连接词传播传入的依赖关系


在基本表示法中,连词短语的督词和从属词都与第一个连词相连。这通常会导致内容词之间的依赖路径非常长。因此,增强表示法也包含了短语的其他连接词与治理词和从属词之间的依赖关系。


连体的主体和客体


当主语是连词名词短语时,每个连词都与谓语相连。

Paul and Mary are running .______ccpunctauxconjnsubj5
Paul and Mary are running .______ccpunctauxconjnsubjnsubj6


连体物体也是如此。

Paul bought apples and oranges .______nsubjccobjconjpunct7
Paul bought apples and oranges .______nsubjccobjconjobjpunct8


在集体主体或客体的情况下,这会导致略微奇怪的依赖关系:

Paul and Mary are meeting .______ccpunctauxconjnsubj9
Paul and Mary are meeting .______ccpunctauxconjnsubjnsubj10
Mary is eating mac and cheese ._______auxobjccnsubjconjpunct11
Mary is eating mac and cheese ._______auxobjccnsubjconjobjpunct12


不过,由于分配式读法和集合式读法之间的区别往往取决于语境,因此我们采取了最简单的方法,总是将所有连接词附加到谓词上。


当主语连接到控制谓语或提升谓语时,矩阵动词和每个连接词之间以及嵌入动词和每个连接词之间都存在依存关系。

Mary and John wanted to buy a hat ._________detmarkccobjxcompconjnsubjpunct13
Mary and John wanted to buy a hat ._________detmarkccnsubjobjxcompconjnsubjnsubjpunctnsubj14

 连接修改器


连词修饰短语中的每个连词都与修饰短语的省长相连。例如,下面的短语包含一个修饰名词的连缀形容词短语。在增强表示法中,名词 river 和第二个连接词 wide 之间多了一个 amod 关系。

a long and wide river_____ccconjamoddet15
a long and wide river_____ccamodconjamoddet16


从连接词向外传播依赖关系


在基本表示法中,连词短语的督词和从属词都与第一个连词相连。这通常会导致内容词之间的依赖路径非常长。因此,增强表示法也包含了短语的其他连接词与治理词和从属词之间的依赖关系。


连缀动词和动词短语


当两个动词共用宾语(或其他补语)时,连用动词的主语和宾语都附在每个连词上。

The store buys and sells cameras ._______detccnsubjconjobjpunct17
The store buys and sells cameras ._______detccnsubjobjconjnsubjobjpunct18


但是,如果第二个动词的补语不是共用的,则只有共用的从句才会附加到每个连词上。

She was reading or watching a movie .________detauxccobjnsubjconjpunct19
She was reading or watching a movie .________detauxccobjnsubjconjauxnsubjpunct20


同样,增强表示法也能区分第一个动词的私人从句。但要注意的是,在这种情况下,它不能从基本表示法中自动推断出来。

She was watching a movie or reading .________detccauxobjnsubjconjpunct21
She was watching a movie or reading .________detccauxobjnsubjconjpunctauxnsubj22


受控/饲养对象


基本树缺少受控动词与其控制者之间的主语依存关系,也缺少嵌入动词与其升起主语之间的主语依存关系。在增强图中,嵌入动词和矩阵分句的主语之间有额外的从属关系。这种依存关系可以通过扩展名(子类型) :xsubj 来识别。

 基本 增强型
Mary wants to buy a book ._______markdetnsubjobjxcomppunct23
Mary wants to buy a book ._______markdetnsubjobjxcompnsubj:xsubjpunct24
She seems to be reading a book .________detnsubjauxmarkobjxcomppunct25
She seems to be reading a book .________detnsubjauxmarkobjxcompnsubj:xsubjpunct26
Mary made me buy the house ._______objnsubjdetxcompobjpunct27
Mary made me buy the house ._______nsubj:xsubjobjnsubjdetxcompobjpunct28
Mary wants me to be promoted ._______objnsubjaux:passmarkxcomppunct29
Mary wants me to be promoted ._______objnsubjaux:passmarknsubj:pass:xsubjxcomppunct30

 关系从句


在基本树中,相对代词与相对分句的主谓词相连(通常是 nsubjobj 关系)。在相应的增强图中,相对代词是通过特殊的 ref 关系连接到它的前件的,而前件是作为基本树中相对代词的父节点的从属节点连接的。通常情况下,这个父节点是相对分句的主谓词,但并不总是这样(见下面的例子)。


在没有明确相对代词的情况下,增强图中没有 ref 关系,但前置词仍被注释为相对从句中某个节点的从属关系,这取决于它在相对从句中扮演的角色。


请注意,这种图形包含一个循环。

the boy who livedDET#NOUN#PRON#VERB#detnsubjacl:relcl31
the boy who livedDET#NOUN#PRON#VERB#detrefnsubjacl:relcl32
the book that I readDET#NOUN#PRON#PRON#VERB#nsubjdetobjacl:relcl33
the book that I readDET#NOUN#PRON#PRON#VERB#nsubjdetrefobjacl:relcl34
the book I readDET#NOUN#PRON#VERB#nsubjdetacl:relcl35
the book I readDET#NOUN#PRON#VERB#nsubjdetobjacl:relcl36


副词相对修饰语也受到同样的对待。

the episode where Monica singsDET#NOUN#ADV#PROPN#VERB#detnsubjadvmodacl:relcl37
the episode where Monica singsDET#NOUN#ADV#PROPN#VERB#detnsubjrefoblacl:relcl38


增强关系包括深层句法关系。因此,在案例标记语言中,增强的从属关系可能会将动词从属关系连接起来,而这些动词从属关系并不在表面句法所要求的预期形态情况下。


在下面的捷克语例句中,相对修饰短语 v němž "在其中 "必须使用定位格形式 ( Case=Loc )。如果这是一个主句,那么指代词 dům "房子 "也必须是定位格:v domě "房子里"。然而,这里是名词性从句( Case=Nom ),而且根据该语言的形态-句法规则,强化从句 obl 转为名词性从句是我们意想不到的。

dům , v němž žijemeNOUN#PUNCTADPPRON#VERB#caseoblpunctacl:relcl39
dům , v němž žijemeNOUN#PUNCTADPPRON#VERB#caserefpunctoblacl:relcl40


相对要素并不总是直接取决于相对分句的谓语。它可以嵌入得更深,如下面的例子。

muž , v jehož domě žijemeNOUN#PUNCTADPDET#NOUN#VERB#detoblcasepunctacl:relcl41
muž , v jehož domě žijemeNOUN#PUNCTADPDET#NOUN#VERB#oblrefcasenmodpunctacl:relcl42


如果相对从句有一个名词性谓语,则相对代词可以占据从句的首部位置。


与大多数相对分句不同的是,在这里,基本树中相对代词的父代并不在相对分句中,它的前置词也不会有额外的增强关系将其连接到相对分句中的(不存在的)父代。取而代之的是,我们在相对分句的 nsubj 中从前者添加一个 nsubj 关系(并删除相对代词和主语之间相应的 nsubj 关系)。 acl:relcl 应与基本从句中的关系相同。

He became chairman , which he still is .PRON#VERB#NOUN#PUNCTPRON#PRON#punctnsubjnsubjxcompadvmodacl:relclcoppunctADVAUX#PUNCTadvmodcoppunct43
He became chairman , which he still is .PRON#VERB#NOUN#PUNCTPRON#punctnsubjxcompadvmodacl:relclrefcopnsubjpunctPRON#ADVAUX#PUNCTadvmodcopnsubjpunct44

 案例信息


在非核心隶属关系的关系名中添加介词(或大小写信息),往往可以明确其语义作用。因此,我们用修饰语的大小写信息来增强某些关系标签。被增强的关系是 nmodaclobladvcl ;如果语言合理,一些核心关系也可能被增强: obj , iobj , ccomp 。情况信息可以用通过 case 关系附加的副词的词法来表示。对于分句,相应的信息可以用 mark 从属关系的词法来表示。大小写信息也可以用形态特征 Case 的值来表示。在某些语言中,既有状语情况,也有形态情况,它们的组合必须反映在增强关系中。


与此类似,增强型 UD 图也包含 conj 关系,这些关系用它们的协调连词进行了增强。这使得两个短语之间的协调类型更加明确,这对于有多个协调连词的短语尤其有用。


以下是适用的正式规则(摘自本页开头的摘要):

the house on the hill_____detdetcasenmod45
the house on the hill_____detdetcasenmod:on46
He went to the dinner after leaving work ._________nsubjdetobjmarkcaseobladvclpunct47
He went to the dinner after leaving work ._________nsubjdetobjmarkcaseobl:toadvcl:afterpunct48
die Zerstörung der StadtDET#NOUN#DET#NOUN#detdetnmod49
die Zerstörung der StadtDET#NOUN#DET#NOUN#detdetnmod:gen50
Er sitzt auf dem Boden .PRON#NOUNADPDET#NOUN#PUNCTnsubjdetcaseoblpunct51
Er sitzt auf dem Boden .PRON#NOUNADPDET#NOUN#PUNCTnsubjdetcaseobl:auf:datpunct52
Er setzt sich auf den Boden .PRON#NOUNPRON#ADPDET#NOUN#PUNCTnsubjdetexpl:pvcaseoblpunct53
Er setzt sich auf den Boden .PRON#NOUNPRON#ADPDET#nsubjdetexpl:pvcaseobl:auf:accpunctNOUN#PUNCTdetcaseobl:auf:accpunct54
В течение долгого времени изучал язык майя .ADPNOUN#ADJ#NOUN#VERBNOUN#fixednmodobjobl:tmodamodpunctcasePROPN#PUNCTnmodpunct55
В течение долгого времени изучал язык майя .ADPNOUN#ADJ#NOUN#fixedobl:tmod:в_течение:genamodcaseVERBNOUN#PROPN#nmod:genobjobl:tmod:в_течение:genpunctPUNCTpunct56
Lidé se rozutekli před a během útoku .NOUN#PRON#VERBADP#CCONJADP#NOUN#PUNCTccexpl:pvconjnsubjcaseoblpunct57
Lidé se rozutekli před a během útoku .NOUN#PRON#VERBADP#CCONJADP#ccexpl:pvconj:ansubjcaseobl:během:genobl:před:inspunctNOUN#PUNCTcaseobl:během:genobl:před:inspunct58
apples and bananas , or oranges______ccccpunctconjconj59
apples and bananas , or oranges______ccccpunctconj:andconj:or60

 其他改进


一些后处理步骤,如将行为类似于定量定语的轻名词降级(如 Schuster 和 Manning(2016)中所述),可以提高依赖关系图在下游应用中的可用性。


然而,由于这些新增内容大多是高度特定的语言,我们并没有为这种表示法提供任何通用指南,而且上述新增内容之外的任何内容都不属于 UD 标准的一部分,不应添加到正式发布的树库中。



DZ:以下是一些补充意见,虽然它们不属于官方批准的指南的一部分,但我认为今后应考虑将其添加进来(根据树库的经验,这些树库已经包含了一些增强注释)。