这是用户在 2024-9-23 21:14 为 https://app.immersivetranslate.com/word/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?


人工的

智能


法律

https://doi.org/10.1007/s10506-024-09420-y


原创研究


罗马尼亚司法匿名化系统


瓦西利帕伊什1R阿杜1埃琳娜伊利米亚1维尔吉尼卡巴尔布米提特鲁1瓦伦丁巴德亚1图菲什1


已接受:2024 年 9 月 3 日


© 作者(s),在 Springer Nature B.V. 2024 的独家许可下


摘要


司法过程的透明度和司法决定的一致性可以通过其发布得到改善。法律专业人士(法官、律师、法学生)和公众对法律案例的获取至关重要。然而,公众访问必须确保遵循国家和国际法规,保护相关人员的隐私。本文介绍了构建一个人工智能系统以使罗马尼亚法律案例匿名化的工作,使其能够通过罗马尼亚最高法院运营的 ReJust 门户网站进行访问。


关键词匿名化法理学自然语言处理
·


罗马尼亚语


瓦西里·佩伊什

vasile@racai.ro


拉杜·伊昂

radu@racai.ro


埃琳娜·伊里米亚

elena@racai.ro


维尔吉尼卡·巴布·米蒂特鲁 vergi@racai.ro


瓦伦丁·巴迪亚

valentin.badea@racai.ro


丹·图菲什

tufis@racai.ro


罗马尼亚科学院“米哈伊·德拉根斯库”人工智能研究所,布加勒斯特 13 九月大道 13 号,邮政编码 050711,罗马尼亚


卷号:(0123456789)

V.
步伐

al.


1 导言


开放司法数据库的访问对法律专业人士和社会都有积极的影响。这能够提高司法过程的透明度,是确保司法判决一致性的重要步骤。此外,访问这些数据库还使人工智能相关领域的研究成为可能,包括特定领域的大型语言模型和法律推理。然而,向公众提供访问并不是一件容易的事,因为决策在公开之前需要进行匿名处理。人工进行匿名化的工作对法庭工作人员来说是一个耗时的任务。因此,基于最先进的自然语言处理算法的(半)自动工具是必要的。由于当前没有工具能够实现 100%的准确性,因此采用半自动化的过程,允许人工参与验证匿名化结果是最安全的选择。这大大减少了公开发布法庭判决所需的时间,同时确保了高水平的匿名性。


在罗马尼亚,最高司法委员会(SCM)开发了案例法门户 ReJust,以便公民和司法系统内的从业者更容易获取国家法院发布的裁决。访问案例法门户是免费的,但需要用户注册。该案例法数据库包含刑事、民事、商业和行政案件类型的所有法院裁决。唯一的例外是 ECRIS(案件管理系统)中标记为机密的文件,例如涉及未成年人的判决或其他决定、性骚扰、离婚/家庭事务、承认调解协议的决定,以及对叛国、间谍活动、强奸和儿童色情等罪行的裁决,以及当事人请求的文件。SCM 的案例法数据库包含所有法院的判决,除最高法院外,后者维持其自身的案例法数据库。目前,约有 4000 万个 2011 年至今发布的法院裁决在该门户上公开,数据库每天更新。


项目“促进司法判决透明度和加强欧洲人权法院国家实施”(TJENI)的目标是改善国家司法判决的透明度和一致性,加强司法决策的质量,并将人权法理的信息简化传递给国家司法机关。通过司法过程的透明度增强人权和法治的保护,提高国家法院判决与欧洲人权和法治标准的一致性。罗马尼亚是唯一通过 ReJust 门户网站发布所有法院判决的 TJENI 受益国。

1 https://www.rejust.ro/.


2https://commission.europa.eu/law/cross-border-cases/judicial-cooperation/tools-judicial-cooperation/欧洲刑事记录信息系统 (ECRIS)
.

3 https://www.coe.int/en/web/national-implementation/tjeni.


系统

为了


去标识化


罗马尼亚语

法理学


本文介绍一个专门罗马尼亚法学匿名化设计系统我们描述系统技术方面以及构建过程中遇到挑战获得经验我们贡献三方面首先我们根据罗马尼亚法律法规定义罗马尼亚法学匿名化要求其次我们描述特定目的生成数据集以及相关挑战第三我们介绍最终系统该系统采用算法算法。其余部分论文组织如下2概述匿名化的要求法律背景3介绍相关工作4介绍数据集5描述匿名化系统6pre-sentsdifferentexperimentsthathavebeenperformed.WefinallyconcludeinSect.7
.


2 匿名化要求


文档匿名化通常指的是在向公众发布的文档中隐藏/模糊/掩盖个人及其他司法数据的过程。通常,这必须进行以确保剩余的上下文无法揭示故意隐藏的信息。然而,通常来说,这是一项困难的任务,尤其是在确定需要从文本中删除哪些内容以使人无法识别时。这可能取决于文档的类型、发布文档的上下文以及发布的附加信息(元数据或其他文档)。


《通用数据保护条例》(GDPR) 第 4 条第 5 款规定,“假名化”是指以这样一种方式处理个人数据,即在不使用额外信息的情况下,无法将其归因于特定数据主体。此外,欧盟普通法院在 T-557/205 号案件中裁定,如果数据接收者没有重新识别数据主体的工具,则传输给数据接收者的假名化数据不属于个人数据。法院还澄清,不能假设个人的意见是个人数据;相反,需要进行逐案评估。除了欧盟的一般原则和法规外,罗马尼亚的具体法律也与目前的匿名化项目有关。这包括 2018 年第 190 号法律,该法律实施了 2016 年 4 月 27 日欧洲议会和理事会关于保护自然人个人数据处理和这些数据自由流通以及废除指令 95/46/EC(通用数据保护条例)的(欧盟)2016/679 号条例的措施,以及最高司法委员会(SCM)法官部门第998/17.03.2022.


特别是,SCM 决定 998/17.03.2022 指出,以下信息需要匿名化,以便通过司法判例门户网站发布决定:


4理事会条例2016/679,2016O.J.(L119)(欧盟),https://eur-lex.europa.eu/eli/reg/2016/679/oj5判决一般法院(第八室,扩大组成)26四月2023,案件T-557/20,https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A62020TJ0557
.

V.
派什
et
阿尔


姓名、姓氏、别名、出生日期和地点、个人识别码、居住地址、组织名称、组织总部、案件编号以及其他可能导致案件识别的数据。这明确定义了需要匿名化处理的某些信息,同时通过指定“可能导致案件识别的其他数据”来允许模糊性。此外,尽管命名实体识别 (NER) 和匿名化是相关的任务,但从需求中可以明显看出两者之间的区别,因为并非所有日期或地址都需要匿名化。因此,匿名化过程只需要文本中存在的命名实体 (NE) 的一个子集。


项目匿名化要求通过与 SCM 法官的讨论进一步细化。确定了 17 个 NE 类别,如下:个人身份证号码、组织名称、位置(对应地址或特定地点名称)、电话号码、日期(主要是出生日期)、人员(包括姓名、姓氏、别名)、首字母(仅在特定情况下,用以代替起草特定文件人员的姓名)、司法文件编号、非司法文件编号、欧洲案例法标识符(ECLI)编号、案件编号、车辆登记代码、个人身份证件系列和编号、电子邮件地址、组织注册号、银行账户和土地登记代码。针对每个类别制定了具体要求。在某些情况下,文本中出现的所有实例都被匿名化(例如电子邮件、个人身份证号码、银行账户)。对于其他 NE,仅根据上下文对特定情况进行匿名化。


在涉及个人(人名、姓氏和昵称)的情况下,在绝大多数情况下,这些信息将被匿名化,无论他们在法庭上的程序身份如何(申请人、被申请人、被告、证人、法官、书记员等)。但是,也存在例外。当一个人的名字在公共案件的上下文中提及时,例如在欧洲人权法院的案件中,就不需要匿名化(我们语料库中的例子包括:“cauza Salabiaku c. Franţei” - “Salabiaku 诉法国案”,“cauza Västberga Taxi Aktiebolag şi Vulic c. Suediei” - “Västberga Taxi Aktiebolag 和 Vulic 诉瑞典案”)。当一个人的名字是法律实体名称的一部分时,可能需要更大范围的匿名化,并将其视为组织(有时名字前后会有特定短语:例如“b.a.” - 律所的缩写“birou de avocatură”,“c.m.” - 医务所的缩写“cabinet medical”,同时可能包含需要匿名化的附加文本)。 还需要区分需要匿名化的组织(私人组织和参与审判的公共组织)和不需要匿名化的组织(不参与审判的公共组织,主要由法律机构本身、文件签发机构或对公共机构的泛指,如“罗马尼亚警察”)。


在语料库中,日期(以及一般的时间表达)非常多,但只有少数情况下需要进行匿名化(具体来说,当它们代表一个人的出生日期时)。这意味着绝大多数日期将不会被匿名化(例如,审判发生的日期、做出决定的日期、发布文件的日期等)。地址的匿名化也是一个逐案决定,因为这取决于推断个人或组织的可能性。


系统

为了
the
匿名化


Please provide the Romanian text you would like translated

法理学


从提到的位置(例如,当涉及私人或机构住所、出生地点、拥有的建筑/土地时)。一般来说,发生事故和事件的地点不需要匿名,但如果这些地点与个人住所非常接近,或者事件在媒体上受到广泛报道,它们也可能泄露身份。


上述简要描述的要求进一步强调了命名实体识别(NER)与匿名化之间的区别。虽然 NER 涉及检测与命名实体(NE)相关的文本片段并将其分类为某一特定类别,但匿名化则要复杂得多,需要额外的步骤来决定是否需要将识别的 NE 从文档中删除。在识别出需要匿名化的文本片段及其对应类别后,必须就替换文本做出决定。我们决定根据类别使用不同的替换算法,如下所示:代码(例如土地登记、公司登记、ECLI)用随机数量的“#”字符替换;随机首字母替换组织和人名;其他类别(例如电话、地址、日期、电子邮件)由一个表示该类别的单词后跟一个计数器(例如“Email1”)替换。在随机首字母或跟随计数器的单词的情况下,这些在属于同一案件的文档中保持一致。这有助于提高匿名化文档的可读性。


3 相关工作


匿名化正成为公共管理、研究和工业的首要任务。机器翻译是需要大量数据的关键领域之一,而从互联网收集的数据在投入生产之前需要进行匿名化。欧盟委员会 (EC)、EC 的数字服务基础设施 (DSI) 以及大量敏感数据的所有者和创建者必须在向公众发布之前对文件进行匿名化。CrossLang 的综合报告 (Vanallemeersch 和 Szoc 2021) 回顾了一些深入研究匿名化过程的欧洲项目,并讨论了可用的(公共和商业)匿名化工具。在与自动匿名化领域的主要利益相关者(与 NER 和匿名化相关的项目联盟、法律、警察和医疗领域敏感文件匿名化专家、来自 EC 和行业的翻译技术专家)组织的咨询回合中,作者综合了一些关于匿名化最佳实践的基本和高级场景。 对于像我们这样的单语环境,提出的工作流程涉及一个用于 NER 的深度学习模型,并结合 NE 列表和 NE 的正则表达式列表。一些针对匿名化的欧洲行动包括:ELRC、CEF 数据市场、COMPRISE、ParaCrawl、MAPA - 公共行政的多语言匿名化(Arranz)

6 https://www.lr-coordination.eu/.7 https://www.datamarketplace.eu/.8 https://www.compriseh2020.eu/.

V.
派什


阿尔


等。2022Ajausks 等。2020),CURLICAT - 为 CEF.AT 策划的多语言资源(Váradi 等。2022)等。除了这些行动资助项目创建的工具(例如 TM-anonymizer、TEXT-Transformer、Biroamer)之外,一些其他机构(美国国家医学图书馆、美国国立卫生研究院)、公司(SDL、SYSTRAN、ABMartin、STACC、TILDE 等)、研究机构(CNRS、巴塞罗那超级计算中心、DFKI、中东欧欧洲大多数学院和大学)参与了构建/收集语言资源的项目,这些资源需要在传播之前进行匿名化。匿名化是使用现有工具或构建特定语言的工具进行的。一些当前的单语或多语匿名化软件是免费的,另一些是商业产品:NETANOS、NLM-Scrubber、MEDINA、SDL TM Anonymizer、SYSTRAN Anonymizer for Relativity。


当前的匿名化方法以某种序列分类为起点,其中将标记编码为实向量,并在感兴趣的标签之一中对连续的跨度进行分类。应用于法律领域,并针对特定实体,如人、案件编号、文档 ID 等,这种类型的序列分类是在法律领域中熟悉的命名实体识别(NER)任务。存在“扁平 NER”和“嵌套 NER”的区分(Yu 等,2020),其中扁平 NER 是将一段连续的标记分配一个标签的任务,而嵌套 NER 可以将不同的标签分配给包含跨度内的标记子跨度,并有其自己的标签。就我们的目的而言,我们只对扁平 NER 感兴趣,并且仅讨论与此场景相关的工作。


MAPA(Arranz 等人,2022 年)使用深度学习模型和正则表达式来检测和分类敏感实体。它通过神经语言模型替换、随机字符替换和基于词典的替换来匿名化数据。用户可以为各种实体类型和语言定制这些策略。尽管从合成数据创建过程中继承的噪声存在缺陷,但在法律和医疗语料库中的大多数文档中,保留数据的召回率和 F1 得分都超过了 0.895 的阈值。在 CURLICAT 项目中,使用假名化使数据不易归因于特定个人,区分局部(单个文本内)和全局假名化(跨多个文本)。罗马尼亚语使用局部假名化方法,保留后缀以保持语言完整性。同时,其他语言采用经过调整的命名实体识别模型,用与上下文相关的占位符替换敏感实体。 罗马尼亚匿名化系统依赖于一个预先存在的 NER 模块,该模块通过文本标记进行增强,例如句子中首字母大写的单词,以进一步匿名化潜在的未识别实体,从而提高匿名化精度,超过 NER 系统的性能。对于其他语言,CURLICAT 采用了基于 BERT 模型的语言特定版本的 NER 模型。


Plamondon 等人(2004)承认,法庭决定的匿名化需要正确识别的不仅仅是个人姓名,而过度的匿名化会降低文本的可读性和可用性。他们使用 GATE(Cunningham 等人,2002)自动识别文本中的专有名词,并对其包含的 ANNIE 系统进行领域适应以提高结果。Trias 等人(2021)在处理历史法律文本时,关注律师姓名的识别。


系统

为了


匿名化


罗马尼亚语

法理学


他们使用预训练的 Transformer 神经网络为句子中的词语分配词性,然后将输出馈送到有限状态机以识别人物姓名。他们承认使用昵称或首字母而不是完整姓名会带来问题。尽管 NER 和匿名化是不同的任务,如前一节所述,匿名化更具挑战性,需要在上下文中识别仅需匿名化的 NER 实体子集,但 NER 方法仍然与匿名化相关。在这种情况下,Leitner 等人(2019)对德国法律文件语料库(Leitner 等人,2020)进行了细粒度 NER。他们将 CRF 和 BiLSTM 模型应用于细粒度 NER 任务,其中包含 19 个不同的法律类别,自动映射到 7 个粗粒度类别。CRF 模型使用词汇特征、地名词典和查找表,而 BiLSTM 模型使用不同类型的字符嵌入。结论是,具有字符嵌入的 BiLSTM 模型优于 CRF 模型。将这项工作与本文中描述的工作进行比较,我们使用了更高级的上下文建模神经网络(例如, 基于 Transformer 编码器的 BERT 编码器),我们开发了一种投票方案,能够从任意数量的 NER 模型中为每个词元组装一个最终的 NER 标签。除了使用地名词典,我们还开发了专门的正则表达式,能够识别我们感兴趣的法律 NE 类型。Legal-ES(Samy 等人,2020)是一个大型西班牙语语料库,涵盖了不同类型的立法、行政和司法文本。Kalamkar 等人(2022)描述了一个针对印度法院判决的 NER 语料库,涵盖了 14 个 NE 类别。他们使用了一种最先进的 NER 方法,在 BERT 编码器模型计算的词元向量之上添加了一个分类层,与我们这里采用的方法相同。最终的 NER 标签经过一个后处理阶段,该阶段根据文档级上下文细化 NER 注释。出于我们的目的,句子级上下文足以创建有效的匿名化,我们还采用了一个后处理阶段,在该阶段中,冲突的法律 NE 跨度被协调,以便生成的跨度表示目标法律 NE。


对于罗马尼亚语,(Păiş et al. 2021a)在一个大型语料库上进行了匿名化实验(不包括法律领域的文件)。作者使用基于 BiLSTM 单元的循环神经网络,并最终添加了 CRF 层。使用了额外的特征,这些特征来源于词表示、字符嵌入、地名资源和已知词缀。LegalNERo(Păiş et al. 2021c)是一个罗马尼亚法律领域的 NER 语料库,进一步由(Costea et al. 2022)扩展,包含细粒度法律参考。Păiş et al.(2021b)、Păiş和 Mitrofan(2021)描述了罗马尼亚法律领域的 NER 系统。Masala et al.(2021)介绍了一个用于法律判决预测的罗马尼亚 BERT 模型。Barbu Mititelu et al.(2022)描述了以链接数据格式呈现的自然语言资源,包括法律领域资源。MicroBloggingNERo(Păiş et al. 2022)是一个微博客语料库,包含多种 NER 注释,包括法律引用。然而,这些实验中没有一个专注于法学数据,正如我们在以下部分所述。MARCELL - CEF.AT 法律领域的多语言资源(Váradi et al. 2020、Tufiş et al. 2020)是一个包含罗马尼亚语的立法语料库。立法(相对而言


V.帕伊什其他人


关于法律(法学)的内容不需要匿名化,但法律领域的文本可以用于训练或改进特定领域的语言模型。


4 数据集


训练目前最先进的语言模型,基于人工深度神经网络架构,需要手动标注的实体数据集以进行匿名化。尽管在法律领域中有一些罗马尼亚语言的数据集可用(如第 3 节所述),但没有一个可以直接用于这个项目。它们要么包含不同的标注类型(LegalNERo,CURLICAT),要么法律领域的文本集中于立法而不是法理学(MARCELL)。因此,创建了一个新的带有匿名化标注的法理学数据集。我们使用 RELATE (Păiş et al. 2020)平台的语料管理和手动标注模块进行其标注。该平台集成了 BRAT (Stenetorp et al. 2012)组件以执行标注。


根据第 2 节中详细描述的匿名化要求,制定了一份注释指南。每个实体类别都被分配了一个代码,并包含与可能存在歧义的情况相关的不同方面。通过会议和在线协作工具,与法官、语言学家和人工智能专家讨论,为各种方面做出了详细决策。选择了 43 名专家注释员(法官、法庭工作人员和语言学家)。注释员培训主要集中在使用 RELATE 平台访问语料库中的指定文档并进行实际注释。这涉及使用鼠标选择相关的文本范围并分配适当的实体类别。基于 BRAT 的组件扩展以包含每个实体类别的描述,显示在注释员的窗口中。注释界面如图 1 所示。该平台记住了每个注释员上次处理的文档,以及尚未完成的文档,从而实现了顺畅的工作流程。


图 1 RELATE 平台中的注释界面


系统

为了
the
匿名化


罗马尼亚语

法理学


文档之间的过渡。注释进度通过与 RELATE 平台集成的仪表板组件进行跟踪。


从 SCM 数据库随机选择了 1940 个文档,同时试图涵盖不同领域,导致文档大小各异。每个注释者收到了 50 个文档,其中一些文档由至少 2 个注释者进行注释,以便计算注释者间一致性(IAA)得分。考虑到注释者的专业知识,选择双重注释的文档数量保持在最小。在这种情况下,我们假设多个专家注释者注释的文档数量增加不会显著影响结果。在注释过程结束后,使用 Cohen's Kappa 计算的 IAA 得分为 0.94。根据 Landis 和 Koch(1977 年),Kappa 值大于 0.81 表示“几乎完全”一致。这个结果可以通过专家注释者的参与来解释。有 50 个文档被保留用于最终评估,而其余的文档用于训练不同的模型。


数据集统计信息见表 1。表 2 提供了实体级和词语级的标注相关统计信息。评估数据集是在标注完成之前选择的,因此无法保证该子集中所有类别的覆盖率;这导致了三个缺失类别(土地登记代码、银行账户和电话号码)。然而,这并不被认为是一个问题,因为正则表达式可以很好地处理这些特定的类别。属于 CNP 或 ECLI 等类别的实体预计只有一个词语。然而,在训练集中,有几个例子(13 个 CNP,8 个 ECLI)在实体内部错误地放置了空格,导致它跨越 2 个词语。这是由于意外或因为编辑文档的人在实体是文本行中的最后一个词语时将实体分成了两行。 实体/标记比率的差异反映了法院判决的现实情况,在某些情况下,实体名称包含大量标记(例如,组织名称“Biroul Notarilor Publici Asociaţi Ion, Ion şi Asociaţii Bucureşti” / “Office of Public Notaries Ion, Ion and Associates Bucharest”),而在其他情况下,实体名称只有一个标记。此外,实体/唯一实体比率的差异反映了不同的


表 1 数据集统计 训练 评估


唯一文件 1890 50 总句子数 177,757 3877 唯一句子数 134,197 3504 总标记数 5,963,527 139,628 唯一标记数 124,097 13,422 唯一小写标记数 112,255 12,239 总实体 76,009 2276 唯一实体 25,506 1070 总实体标记数 193,395 6379


V.帕伊什其他人


表 2 注释统计


班级描述 标签 训练 评估


实体 令牌 实体 令牌


车辆注册代码 AUTO 731 1361 36 78 土地登记代码 CADASTRU 2145 4285 0 0 案件编号 CASE 4015 4030 168 168 个人身份证号 CNP 915 928 31 31 组织注册号 CUI 237 269 23 23 出生日期 DATE 1965 2494 28 28 司法文件编号 DECISION 4864 4928 163 163 非司法文件编号 DOCNUMBER 7007 8793 277 363 欧洲案例法标识符 ECLI 367 375 116 116 电子邮件地址 EMAIL 9 9 2 2 银行账户 IBAN 2 2 0 0 身份证件系列和编号 ID 174 735 17 31 法院工作人员首字母 INITIALS 2153 2234 88 88 地址或特定名称 LOC 5397 54,204 188 2537 组织名称 ORG 6862 21,979 179 468 姓名、姓氏、别名 PER 39,059 86,683 1048 2287 电话号码 PHONE 94 99 0 0


决策的格式。在某些情况下,实体名称在整个文档中重复出现(减少了唯一实体的数量),而在其他情况下,它被替换为当事人在案件中的角色,例如上诉人、被告、原告、申请人、被告上诉人。由于训练和评估数据集是在进行标注之前随机选择的,因此无法确保类似的比例。


在标注过程中,我们注意到某些标签实际上被用于多种现实生活中的物体类型,这个问题可能会降低算法的性能。AUTO 就是一个这样的例子:它被用来标注罗马尼亚的车牌号码和外国车牌,格式可能不同;即使在罗马尼亚,官方机构车辆或临时车牌的号码格式也与常见格式不同。此外,在同一决策中,相同的号码可能以不同的方式输入(例如,“DB13XYZ” - “DB13 XYZ” - “DB-13-XYZ”)。AUTO 标签还用于其他车辆识别号码,例如底盘系列,这些号码的格式与车牌不同。CUI 实体也存在类似的问题,它涵盖了几种财务实体的标识符,而 CADASTRU 实体则包含了用于地籍和地形类型的土地登记标识符。LOC 实体实际上需要涵盖的不仅仅是典型地址和地理位置,还包括指示某块土地附近的特定词结构,例如 tarlaua nr. 234,北侧与 Ionescu I 接壤,西北侧与 Popescu P 接壤。分类的


系统

为了
the
去标识化


罗马尼亚语

法学


文档中出现的缩写如 PER、ORG 或 INITIAL 实体的意义也依赖于出现的上下文。


该数据集首先以注释文本跨度格式生成(每个注释实体类别的起始和结束索引指示)。接下来,利用 RELATE 平台提供的文本处理模块对文本进行句子级分段、分词、自动词性标注和依赖分析、词形还原,并将跨度注释与词元对齐。基本语言注释通过 UDPipe(Straka et al. 2016)进行,使用在罗马尼亚 RoRefTrees(RRT)语料库版本 2.7(Barbu Mititelu 等,2016)上训练的自定义模型(Păiş et al. 2021),该语料库在 Universal Dependencies 项目中可用(deMarneffe et al. 2021)。分词版本自动与跨度级命名实体(NE)注释对齐,采用 BIO(开始/内部/外部)注释格式(Ram-shaw 和 Marcus 1995)。


5 系统架构


该系统采用模块化架构,由多个模块类型组成,可以根据不同参数实例化多次。处理管道是动态的。一个专门的编排组件负责创建模块实例,根据从配置文件读取的规范路由请求,并组装 resulting document。模块设计为 REST API 端点,通过 HTTP 协议进行通信,参数以 JSON 格式传递。采用基于令牌的注释的模块使用列式的 CoNLL-U Plus 文件格式。注释总是添加在文件的最后一列。提供命名实体识别(NER)的模块采用 BIO 注释格式。所有模块实现两个 API 端点:process 和 checkHealth。process 端点处理文档处理。它接受 JSON 作为输入,生成另一个 JSON 作为输出。数据(文档内容,生成的注释)作为当前运行任务的专用文件夹中的文件名传递。 我们采用了这种技术(而不是直接将文件内容传递给 API 调用),因为相同的数据可能被多个模块使用(例如,经过标记的文档可能会使用不同算法进行注释)。在这种情况下,让各个模块访问相同的文件(通过文件路径指定)可以消除将其多次编码为 JSON 的需求(不同模块可能有不同的 JSON 输入规范),同时也减少了所需的内存(只有访问数据的模块读取文件,而编排组件并不将其保留在内存中)。checkHealth 端点用于报告模块的内部状态。当模块加载模型或其他大型资源时,该端点报告进度。当模块初始化并运行时,该端点报告任何阻止其正常工作的问提(例如,严重异常、无法连接到其他资源)。

9 https://universaldependencies.org/ext-format.html.


V.帕伊什其他人


图 2 系统图


与外部系统(主要是 ReJust 门户和 RELATE 平台)的通信通过一个集成组件来处理。它提供了 5 个 API 端点:startAnonymization、getResult、doAnonymization、checkHealth、getVersion。API 仅使用 JSON 编码。文档使用 Base64 编码为 JSON 格式。API startAnonymization 和 getResult 用于异步匿名化。使用等待匿名化的文档队列。这种方法主要用于后台匿名化任务,旨在匿名化大量文档。一旦文档通过系统处理(无论成功与否),它会被移动到一个单独的已准备文档队列中。状态和任何消息(错误或警告)作为与处理文档相关的元数据可用。API doAnonymization 使用优先队列并等待文档处理完成后再返回。这种同步方法对在线用户的请求单个文档的互动匿名化非常有用。checkHealth API 调用所有正在运行的模块实例的相应 checkHealth 端点,并报告系统状态的摘要。 这旨在与网络监控应用程序一起使用,以在检测到错误条件时自动重启系统(或采取其他纠正措施,例如检查存储映射和功能)。getVersion API 报告当前运行的管道的版本。


编排组件首先确保基本系统功能(与存储设备通信,操作系统资源可用性,例如内存),然后读取配置文件并实例化管道。它通过监控其 checkHealth API 来等待管道模块就绪。管道就绪后,它开始处理文档队列。处理完常规队列中的一个文档后,它会检查优先级队列中是否有任何文档等待处理,并开始处理它们。最后,已处理的文档将移至就绪队列,集成组件可以通过已描述的 API 调用发送相应的状态。


系统

为了
the
去标识化


罗马尼亚语

法理学


系统图如图 2 所示。10 种可用的模块类型如下:


文本提取器将文档从其原始格式(TXT、DOCX、HTML)转换为结构化的 CoNLL-U Plus 格式。此格式包含标记化的文本、基本语言注释(词元、词性、依赖解析树)及每个标记在原始文档中的位置,从而在识别替代标记后便于轻松重建原始内容。此模块对于将非结构化文本转换为适合进一步分析的结构化格式至关重要。


(2) 正则表达式标注器根据正则表达式识别 NE。识别发生在文本跨度级别,然后映射到标记。这些对于众所周知的结构化实体特别有用,例如 CNP、IBAN、电子邮件、电话。正则表达式专门为罗马尼亚法学而设计,考虑了特定的词语和语境。例如,案件文件编号具有特定格式,由罗马尼亚最高司法委员会提供,例如“Dosar nr. 4321/5/2007”(卷宗号 4321/5/2007),其中需要匿名化的数字是“4321”。因此,正则表达式包含一个专门用于该部分卷宗识别号的捕获组。一些专门的正则表达式非常复杂。最初由 SCM 成员使用 Perl 语法编写,所有正则表达式都手动翻译成 Python 3,扩展为捕获更多文本跨度,并且每个正则表达式都通过多个单元测试用例进行了验证。(3) 字典通过利用包含已知实体名称的预定义字典来增强实体的识别。 这里使用的 ones10 是为罗马尼亚语设计的,包含 15,944 个人物姓名、5336 个地名和 6441 个组织或公司名称。从根本上说,该模块充当搜索机制。其主要目标是高效地搜索一组 N 个实体,无论其对应标记出现的顺序如何。此任务通过将扩展词典加载到称为 Trie 的前缀树结构中来简化。该结构可以容纳单标记和多标记实体(如我们使用的词典中的实体),从而实现高效搜索。具体来说,Trie 表示允许将多标记实体组织到叶节点中,从而简化了基于标记的搜索过程。Coman 等人(2019 年)在罗马尼亚法律文本中识别法律术语时使用了类似的方法。乱序标记的挑战体现在诸如词典中存在“Ioana Maria Popescu”而“Maria Ioana Popescu”不存在的场景中。在这种情况下,严格的匹配方法将被证明是无效的,从而降低了词典的效用。 为了缓解这个问题,令牌按照字母顺序排列,并在 Trie 结构中进行搜索,从而将复杂度从最初的 O(n)降低到 O(m),其中表示实体的长度。在搜索过程中,所有令牌都被检查以识别潜在实体。在涉及的情况下

10 https://www.racai.ro/p/reterom/results.html

V.
步伐
et
阿尔。


对于多词实体,其起始和结束位置未知,使用大小为 M 的窗口。这里,M 代表字典中实体的最大词语数量。识别出实体后,使用 NER 标签进行标记,遵循 BIO 格式。


(4) 神经模型执行类似 NER 的识别,使用基于 Transformer 的大型语言模型(LLMs),使用第 4 节中描述的数据集进行训练。已经开发了两种模型。第一个模型是一个小型(L = 4 H = 256 A = 8,参见 Devlin 等人(2019)的表 6 作为参考)罗马尼亚 BERT 模型,专门为罗马尼亚语开发(Ion 2023),并在当代罗马尼亚语参考语料库 (CoRoLa)(Tufiş 等人 2019)上进行训练。它包括一个定制的罗马尼亚 WordPiece 分词器,除了在空格处进行分割外,还执行文本规范化(变音符号和空格替换以及自动强制执行罗马尼亚学院写作规范)和正确的罗马尼亚虚词分割。分词器的词汇量更大(500,000 个词符),比典型的 BERT(Devlin 等人 2019)的英语词汇量约 30,000 个词符更大,以适应罗马尼亚语等屈折语。第二个模型使用 XLM-RoBERTa(Conneau 等人 2020)进行训练,并添加了一层,该层受侧抑制的生物学过程(Cohen 2011)的启发,如 Păiş(2022)所提议。 这在以前已被证明在提高罗马尼亚生物医学领域(Mitrofan 和 Păiş 2022)、口语多词表达(Avram 等人 2023a)和低资源语言的语音识别(Avram 等人 2023b)方面取得了良好的效果。(5) 投票过程涉及多个 CoNLL-U Plus 文件(由不同的模块生成或由同一个模块使用不同的参数生成,例如不同的词典),每个文件都包含在同一源文档中识别的实体,并应用投票算法。目前,考虑了 4 种算法:多数投票 - 在多个文件之间进行多数投票;差异 - 计算文件之间的差异(如果第一个 CoNLL-U Plus 文件中的注释在后续文件中没有出现,则保留该注释);添加 - 合并多个文件,添加所有注释(如果一个标记在第一个文档中没有注释,则只有在任何后续文件中都没有注释时才保持未注释;否则,选择找到的第一个注释);交集 - 计算注释之间的交集。


(6) 更正规则对已注释的文档应用自定义规则。这些规则主要旨在去除可能错误包含在命名实体(NEs)中的某些标记,例如实际命名实体之前的单词、某些拼写错误或错误使用大写字母的情况。例如,一个规则允许在同一注释文本范围内,移除注释为人名或首字母的小写单词,前面是以大写字母开头的单词。


(7) 统一化检测同一文档中标注不一致的文本片段。它根据出现次数最多的命名实体类别更改标注。它还将多数标注应用于没有标注的相应文本片段。


(8) 实体编码使用唯一标识符对文档中识别的实体进行编码,包括罗马尼亚语特有的形态后缀(例如,“Maria”变为“#PER1”,“Mariei”变为“#PER2_ei”,


罗马尼亚法学匿名化系统


图 3 系统流程


“Clujului”变为“#LOC3_ului”,等等,如 Păiş等(2021a)所述。这可能允许基于罗马尼亚名字的词典生成类似外观的单词(假名)。在属于案件的文件中存在的实体使用相同的标识符进行编码。为此,保留一个案例级的映射文件。


(9) 实体映射根据预定义方案执行编码实体的替换。这包括基于字典的假名化、插入随机数量的特殊字符(例如“布加勒斯特”变为“#####”)、用随机首字母替换(例如“乔治·伊翁”变为“HM”),或以基础词后跟数字计数(例如“电子邮件 1”)。对于未配置的实体类型或在出现错误的情况下,该模块会退回到通过特殊字符替换进行模糊处理。用于替换识别实体的完整方案在第 2 节中描述。(10) 文档重建处理管道中的最后一步。该模块生成原始文档的匿名版本。它以最终的 CoNLL-U Plus 文件和原始文档作为输入。它生成一个新文档,其中原始文本在需要的地方被匿名内容替换,以便于安全共享敏感数据。原始文档的格式(如粗体、斜体、段落),视文档类型而定,如果可用,则会得到保留。为此,在 DOCX 文件的情况下,我们利用内部 XML 结构。 对于每个匿名化令牌,文档重构模块根据文本提取模块记录的令牌位置,用匿名文本替换令牌文本范围,而不改变文档的预先存在的 XML 结构(从而保留所有格式)。


该系统设计用于容器化。在我们的案例中,我们选择使用 Docker 构建一个包含所有模块的单一容器。这是为了让编排组件能够在容器中启动所有所需的服务。配置文件和所有资源(语言模型、词典、规则)存储在共享存储中。这使得容器能够在 Kubernetes 集群中轻松启动多次。为了加速对大量文档的处理,创建了多个实例,并且 ReJust 门户能够根据需要并行调用它们。为了容纳大量的案例级映射文件,我们建议使用 XFS 作为共享存储的文件系统。

V.
步伐
et
阿尔


表 3 实体分类


完整管道的统计数据


使用不同的神经语言


模型,在精确度方面,


召回率和 F1 分数


带罗马尼亚管道和 XLM 的标签管道

BERT RoBERTa

P R F1 P R F1


自动 0.94 0.95 0.94 0.96 1.00 0.98


案例 0.75 0.92 0.83 0.87 0.62 0.73

CNP 0.61 1.00 0.76 0.73 0.97 0.83

CUI 0.80 0.52 0.63 0.88 0.65 0.75


日期 0.11 0.89 0.19 0.47 1.00 0.64


决策 0.41 0.94 0.57 0.42 0.91 0.58


文档编号 0.68 0.52 0.59 0.84 0.22 0.35

ECLI 0.78 1.00 0.88 0.83 1.00 0.91


电子邮件 1.00 1.00 1.00 1.00 1.00 1.00

ID 0.15 0.48 0.23 0.20 0.65 0.31


首字母 0.15 0.66 0.24 0.18 0.68 0.28

LOC 0.89 0.83 0.86 0.92 0.91 0.92

ORG 0.19 0.66 0.29 0.18 0.70 0.28


每股收益 0.69 0.89 0.78 0.74 0.90 0.81


6 实验结果


管道的动态特性,正如第 5 节所详细说明的,使我们能够实例化多个配置。这包括单独的注释模块(以及文本提取器、实体编码、实体映射和文档重构)以及注释模块的不同组合。表现最佳的管道如图 3 所示,结合了上述提到的不同模块。图中的“Combine”框是使用“ADD”算法实例化的“Voting”模块。


该管道实现的准确率为 0.98。这与标记的二元分类类似,其中每个标记要么被匿名化,要么没有。公式在等式 1 中给出。在这种情况下,如果一个标记满足以下条件,则被认为识别正确:(a)被识别为属于需要匿名化的实体,并且在人工标注的金数据集中被标记,或者(b)在金数据集中未被标记,并且未被系统识别。从 NER 的角度来看,这相当于将所有实体类别合并成一个宏类别。结果是相关的,因为无论实体类别是什么(可能是错误的),相应的文本都会被匿名化。结果在评估数据集上报告,如第 4 节所述。此外,我们计算了匿名化管道的宏平均精确率 (P=0.85)、召回率 (R=0.96) 和 F1 分数 (F1=0.89)。


精度 =


正确识别的标记


总令牌数

(1)


系统

为了
the
去标识化


Please provide the Romanian text you would like translated

法学


特定实体类别的识别仍然相关,因为某些类别被特定值(如“车辆 1”)替换。我们使用两种语言模型(基于罗马尼亚 BERT 和 XLM-RoBERTa)进行了实验。尽管它们达到了相同的准确性,但宏观 F1 分数有所不同:


基于 BERT 的模型为 0.65,基于 XLM-RoBERTa 的模型(带有侧抑制)为 0.69。表 3 给出了使用这两个模型的完整流水线的个体分类统计数据(精确率、召回率和 F1),其中包含了评估数据集中存在的实体类别。报告的 NER 准确率远高于表 3 中的 F1 分数,因为模型难以确定正确的 NE 类别。例如,类别 ID、DOCNUMBER、CUI 和 CNP 涵盖了外观相似的文本跨度。有时,即使在句子级别,上下文也可能模棱两可。给定字符串“The document XXXXX was issued by YYYYY”,不清楚该文档是指身份证明文件还是其他 NE 类别。类似地,基于人名的组织名称会与人物实体混淆。所有这些都降低了各个 NE 类别的 F1 分数,同时保持了整体较高的匿名化准确率。


我们进行了消融研究,考虑了各个模块的结果。评估在相同的评估数据集上进行,仅对数据集中可用的实体报告结果。神经模型的结果在表 4 中给出,正则表达式和字典模块的结果在表 5 中给出。纠正规则、统一化和投票等模块未包含在这些实验中。它们的影响在之前描述的流程实验中已经可见。


由于只有一小部分的日期实体需要被匿名化,因此分类任务非常困难。这在表 4 的结果中得到了体现,其中使用的两种神经模型的召回率均为 1,但许多被识别的日期实体实际上并不是目标匿名化对象(最高精确度为 0.11)。


表 4 实体分类


单个模块的统计数据


使用神经语言模型,


在精确度、召回率和


F1 分数


标记罗马尼亚 BERT XLM-RoBERTa

P R F1 P R F1


汽车 1.00 0.33 0.50 1.00 1.00 1.00


案例 0.94 0.85 0.89 – – –

CNP 0.31 0.89 0.46

CUI 0.75 0.60 0.67 1.00 1.00 1.00


日期 0.09 1.00 0.16 0.11 1.00 0.20


决定 0.65 0.59 0.62 0.77 0.19 0.30


文件编号 0.80 0.69 0.74 1.00 0.50 0.67

ECLI 0.78 1.00 0.87


电子邮件


ID 1.00 0.21 0.35 --- --- ---


首字母 0.29 0.38 0.33 0.83 0.40 0.54

LOC 0.88 0.79 0.83 0.91 0.96 0.94

ORG 0.20 0.55 0.29 0.40 1.00 0.57

PER 0.77 0.92 0.84 0.96 1.00 0.98

V.
派什
et
阿尔


表 5 实体分类


单个模块的统计数据


正则表达式和字典,从术语上讲


精确率、召回率和 F1 分数


分数


标签正则表达式字典

P R F1 P R F1


AUTO 0.96 0.82 0.88 - - -


案例 0.99 0.45 0.62 – – –

CNP 0.79 0.87 0.83

CUI 1.00 0.35 0.52


日期 – – – – – –


决策 0.42 0.90 0.58 – – –


文档编号 - - - - - -

ECLI 0.83 1.00 0.91


电子邮件 1.00 1.00 1.00 – – –

ID 0.12 0.35 0.18


首字母 0.13 0.49 0.21 – – –


位置 0.92 0.20 0.32 – – –

ORG 0.91 0.37 0.53 0.43 0.09 0.15


PER - - - 0.68 0.79 0.73


表 6 数量


NER 任务的标注实体


与匿名化任务相比,在


相同文件。实体类型


标注的数量


发生是相同的在


两个任务没有详细说明


表格,但总数包含它们


标签匿名化任务 NER 任务

PER 312 318


日期 26 359

LOC 70 147

ORG 113 376


总计 794 1479


该结果在最终流程中得到了进一步改进,通过引入修正和统一模块(重新考虑日期实体,XLM-RoBERTa 流程的精度在表 3 中为 0.47)。


通过将管道结果(表 3)与基于神经网络的单个模块(表 4)进行比较,管道方法提供了更平衡的得分。几个类别的识别性能显着提高(DATE、DECISION、CNP),而其他类别则下降(PER、ORG)。下降主要归因于精确度(PER 从 P=0.96 降至 P=0.74)。一个重要原因是统一化组件,它会对具有相似值的文本跨度进行标注。在这种情况下,即使其他跨度与主题无关,也会被标注(例如,类似的常见词语,包含人名的组织,这些组织不需要匿名化等)。


如前所述,匿名化和命名实体识别(NER)是两个不同但相关的任务。Păiş等人(2021b)在罗马尼亚法律领域报告了 PER、ORG 和 DATE 类别的 NER F1 分数更高(尽管实际文档是立法和报告而非司法案例)。为了更好地理解


系统

为了


去标识化


Please provide the Romanian text you would like translated

法学


为了区分 NER 和匿名化,我们从已经手动标注的数据集中随机选择了 20 个额外的文档进行匿名化,并补充了标注,以包含所有与我们感兴趣的实体类型相对应的 NE 出现。表 6 显示了匿名化任务中标注的实体数量以及 NER 任务中标注的实体数量。与匿名化任务相比,NER 任务中实体总数几乎翻了一番(794 vs. 1479)。这些结果反映了我们在第 2 节中关于 PER、LOC、ORG 和 DATE 类别的初始分析,涉及匿名化任务的复杂性。在 NER 任务中被识别为 PER 的实体中,只有少数(6 个)实际上是法律实体,在匿名化任务中被标注为 ORG;这也在表 4 中良好的精确度得分中得到体现。大多数由 NER 识别的 DATE 实体不需要匿名化,因为它们不是出生日期;因此,尽管召回率得分(表 4)为 1,但精确度非常低(0.11)。超过三分之二的 ORG 实体是公共机构,并非试验的一部分;这导致神经模型识别出许多错误的 ORG 实体。最后,在随机选择的 20 份文件中,超过一半的位置与参与试验的个人或组织无关,预计这会导致该类别精度得分较低,但证据表明并非如此:基于 XLM-RoBERTa 的模型的精度为 0.91,召回率为 0.96。这可以用文本中地址附近存在提示词(例如“domiciliat în” - “居住在”)来解释,而对于其他 NE,则需要更大的上下文(有时是多句话)。


我们使用 RELATE 平台的日志文件来比较对完整文档进行标注所需的时间与对自动标注的文档进行校正所需的时间。我们将用于处理文档的总时间除以文档中的标记数量,从而计算出时间/标记。然后,我们在整个数据集上对该指标进行平均。最初的手动匿名化标注任务平均需要 0.41 秒/标记。匿名化结果的校正(仅考虑匿名化要求,而不考虑识别出的正确 NE 类别)平均需要 0.09 秒/标记。因此,所需时间减少了 4.5 倍。


7 结论


本文介绍了为创建一个能够匿名化罗马尼亚法 jurisprudence 的系统所做的工作,以及一个适合该任务的新原始数据集(用于训练和测试的语料库)。据我们所知,这在可用数据集中是为数不多的,并且无疑是罗马尼亚语的第一个。这是一项非常有挑战性的任务,在自动处理方面有其独特性。由于文本中并非所有实体都必须匿名化,这使得这项工作与常规的命名实体识别(NER)方法不同。我们设计了一个结合多种算法的系统,包含基于大型语言模型的类似 NER 模块,也包括更传统的技术,如字典和正则表达式。这一设计决策使用户能够完全控制,选择/调整最适合输入数据特性的处理链。尽管完全标注

V.
派什


阿尔。


用于命名实体的语料库以及标记那些需要匿名化的内容将为该语料库启用额外的使用,考虑到注释者在匿名化方面的经验(而不是命名实体识别或其他语料库构建活动),决定只专注于匿名化任务。


鉴于 NER 和匿名化之间的差异,在整体系统评估方面,传统的 NER 指标,如每类 F1 分数,似乎不太相关。准确率和召回率更好地概述了最终文档的匿名化程度。高召回率确保很少敏感实体逃脱匿名化,而低精确度表明许多匿名化实体不应该被处理。然而,提高单个类别的精确度有助于提高可读性,因为较少的标记被错误地从文本中删除。此外,提高精确度允许使用假名更好地编码匿名化跨度,这进一步提高了可读性。未来的研究将考虑扩展数据集和训练系统,以提高文本跨度的分类精度。由于该系统提供了一个动态的匿名化管道,它将在生产中进行微调,基于对验证匿名化文档的人员的观察。可以采用不同的策略来组合各个模块的结果。随着更多经过验证的文档变得可用,它们可以用来扩展数据集。 基于较大数据集的最佳策略可能与当前工作所使用的评估数据集不同。甚至可以想象,不同的法学类别可能会受益于略有不同的处理流程。例如,商业法下的案件往往涉及更多的组织主体。因此,相比于偏向个人的处理流程,偏向于对组织进行匿名化的处理流程在这种情况下可能表现得更好(尽管这种类型的处理流程对于处理刑法案件可能会更好)。


系统开发实现开放源代码11此外,RELATE平台,用于数据集创建,自己的仓库中也是开放源代码的。数据集无法公开发布,因为信息敏感性。然而,匿名的罗马尼亚法学材料可以ReJust门户获得。12


声明


利益冲突 本项目由欧洲委员会资助,属于“促进司法决定透明度和增强欧洲人权公约(ECHR)国家实施”(TJENI)项目,该项目由欧洲经济区和挪威地区合作基金资助。此处表达的观点绝不应被视为欧洲委员会的官方意见。作者声明与本文内容相关的利益冲突。

11 https://github.com/racai-ai/saroj12 https://rejust.ro.


系统

为了
the
去标识化


罗马尼亚语

法理学


参考资料


Ajausks Ē,Arranz V,Bié L 等人(2020)面向公共行政机构的多语言匿名化工具包(MAPA)项目。载于:Martins A,Moniz H,Fumega S 等人(编)第 22 届欧洲机器翻译协会年会的论文集。欧洲机器翻译协会,里斯本,葡萄牙,第 471-472 页,https://aclanthology.org/2020.eamt-1.57Arranz V,Choukri K,Cuadros M 等人(2022)MAPA 项目:现成的开源数据集和深度学习技术,用于从文本文档中删除识别信息。载于:Siegert I,Rigault M,Arranz V(编)语言资源中人机语言技术和多语言敏感数据去识别化伦理和法律问题研讨会论文集。第 13 届语言资源与评估会议。欧洲语言资源协会,马赛,法国,第 64-72 页,https://aclanthology.org/2022.legal-1.12Avram AM,Mititelu VB,Păiş V 等人(2023a)使用横向抑制和领域自适应的多语言多词表达识别。数学 11(11)。https://doi.org/10.3390/math11112548https://www.mdpi.com/2227-7390/11/11/2548


Avram AM,Smădu RA,Păiş V,等(2023b)通过侧抑制提高低资源语言预训练语音模型性能。2023 年第 46 届国际通信与信号处理大会 (TSP),第 234-237 页,https://doi.org/10.1109/TSP59544.2023.10197791


Barbu Mititelu V, Ion R, Simionescu R 等(2016)根据通用依赖关系注释的罗马尼亚树库。发表于:第十届国际自然语言处理会议论文集(HrTAL2016)


Barbu Mititelu V, Irimia E, Păiş V, 等 (2022) 用例:LOD 范式中的罗马尼亚语言资源。在:Declerck T, McCrae JP, Montiel E, 等 (主编) 第八届语言学中的链接数据研讨会论文集,第十三届语言资源与评估会议,欧洲语言资源协会,法国马赛,第 35–44 页,https://aclanthology.org/2022.ldl-1.5


科亨 RA (2011) 侧抑制。《临床神经心理学百科全书》。施普林格出版社,纽约,第 1436–1437 页


Coman A, Mitrofan M, Tufiş D (2019) 罗马尼亚法律文本中法律术语的自动识别和分类。在:自然语言处理语言资源和工具国际会议


Conneau A,Khandelwal K,Goyal N 等人(2020)大规模无监督跨语言表示学习。在:第 58 届计算语言学协会年会论文集。计算语言学协会,在线,第 8440-8451 页,https://doi.org/10.18653/v1/2020.acl-main.747https://aclanthology.org/2020.acl-main.747


Costea D, Moldovan A, Păiş V (2022) 法律 NERO 语料库中的细粒度法律引用。在:自然语言处理语言资源与工具国际会议第 17 届论文集(CONSILR 2022),摩尔多瓦基希纳乌,https://profs.info.uaic.ro/~consilr/2022/program/


Cunningham H, Maynard D, Bontcheva K 等人 (2002) GATE:一个用于开发健壮 HLT 应用的架构。在:Isabelle P, Charniak E, Lin D(编辑)计算语言学协会第 40 届年会论文集。计算语言学协会,美国宾夕法尼亚州费城,第 168-175 页,https://doi.org/10.3115/1073083.1073112https://aclanthology.org/P02-1022


德夫林 J, 常 MW, 李 K 等 (2019) Bert:用于语言理解的深度双向变换器的预训练。在:2019 年北美计算语言学协会会议论文集:人类语言技术,第 1 卷(长篇和短篇论文)。计算语言学协会,第 4171–4186 页


Ion R (2023) 用于语言分析的罗马尼亚 BERT 模型。在:第 18 届自然语言处理语言资源与工具国际会议,https://conferences.info.uaic.ro/consilr/2023/


Kalamkar P, Agarwal A, Tiwari A 等 (2022) 印度法庭判决中的命名实体识别. 在: Aletras N, Chalkidis I, Barrett L 等 (编) 2022 年自然法律语言处理研讨会论文集. 计算语言学协会, 阿布扎比, 阿联酋 (混合), 页 184–193, https://doi.org/10.18653/v1/2022.nllp-1.15 https://aclanthology.org/2022.nllp-1.15

V.
步伐
et
阿尔


Landis JR, Koch GG (1977) 分类数据观测者一致性的测量。《生物统计学》159–174


Leitner E,Rehm G,Moreno-Schneider J(2019)法律文件中细粒度命名实体识别。在:Acosta M,Cudré-Mauroux P,Maleshkova M 等(编辑)语义系统。人工智能和知识图谱的力量。施普林格国际出版公司,Cham,第 272-287 页


Leitner E, Rehm G, Moreno-Schneider J (2020) 德语法律文件命名实体识别的数据集。在:Calzolari N, Béchet F, Blache P 等人(编辑)第十二届语言资源与评估会议论文集。欧洲语言资源协会,法国马赛,第 4478-4485 页,https://aclanthology.org/2020.lrec-1.551


de Marneffe MC, Manning CD, Nivre J 等人 (2021) 通用依存关系。计算语言学 47(2):255–308。https://doi.org/10.1162/coli_a_00402


Masala M, Iacob RCA, Uban AS 等(2021)jurBERT:一个用于法律判决预测的罗马尼亚 BERT 模型。在:Aletras N, Androutsopoulos I, Barrett L 等(编辑)《2021 年自然法律语言处理研讨会会议论文集》。计算语言学协会,多米尼加共和国蓬塔卡纳,第 86-94 页,https://doi.org/10.18653/v1/2021.nllp-1.8https://aclanthology.org/2021.nllp-1.8


Mitrofan M, Păiş V (2022) 利用生物启发系统改进罗马尼亚生物医学命名实体识别。在:生物医学语言处理研讨会论文集。计算语言学协会,爱尔兰都柏林,第 316-322 页,https://aclanthology.org/2022.bionlp-1.30


Păiş V, Ion R, Tufiş D (2020) 一个与罗马尼亚语言相关的数据和工具处理平台。编者:Rehm G, Bontcheva K, Choukri K 等,第 1 届国际语言技术平台研讨会论文集。欧洲语言资源协会,法国马赛,第 81–88 页,https://aclanthology.org/2020.iwltp-1.13


Păiş V, Ion R, Avram AM 等 (2021) 罗马尼亚自然语言处理管道的深入评估。罗马尼亚信息科学与技术杂志 (ROMJIST) 24(4):384–401 Plamondon L, Lapalme G, Pelletier F (2004) 法院裁决的匿名化。见:Blache P, Nguyen N, Chenfour N 等 (编) 第 11 届自然语言处理会议论文集。长篇文章。ATALA, 法斯, 摩洛哥, 第 159–168 页, https://aclanthology.org/2004.jeptalnrecital-long.17


Păiş V (2022) Racai 在 SemEval-2022 任务 11 中:使用横向抑制机制进行复杂命名实体识别。在:第 16 届语义评估国际研讨会 (SemEval-2022) 论文集。计算语言学协会,美国西雅图,第 1562-1569 页,https://aclanthology.org/2022.semeval-1.215


Păiş V, Mitrofan M (2021) 基于链接开放数据语料库的罗马尼亚法律领域命名实体识别系统研究。在:深度学习和神经语言数据方法研讨会,马其顿斯科普里,第 16-17 页,https://www.juls.savba.sk/attachments/workshop_20210930_en/workshop_20210930_book_of_abstracts.pdf#page=16


Păiş V,Irimia E,Ion R 等(2021a)来自 curlicat 项目的罗马尼亚文本匿名化实验。见:第十六届国际语言资源与自然语言处理工具会议,页 165–178,https://profs.info.uaic.ro/~consilr/2022/wp-content/uploads/2022/04/consilr2021_14_03_2022_P.pdf#page=173


Păiş V, Mitrofan M, Gasan CL, 等 (2021b) 罗马尼亚法律领域的命名实体识别。在:2021 年自然法律语言处理研讨会论文集。计算语言学协会,多米尼加共和国蓬塔卡纳,第 9-18 页,https://aclanthology.org/2021.nllp-1.2


Păiş V, Mitrofan M, Gasan CL 等人 (2021)。罗马尼亚法律领域命名实体识别 (LegalNERo)。https://doi.org/10.5281/zenodo.4772094dataset


Păiş V, Barbu Mititelu V, Irimia E, 等 (2022) 罗马尼亚微博客中的命名实体识别,包括与健康相关的实体。在:Gonzalez-Hernandez G, Weissenbacher D (主编)《第七届社交媒体健康应用挖掘研讨会论文集》,研讨会与共享任务。计算语言学协会,韩国庆州,页 190–196, https://aclanthology.org/2022.smm4h-1.49


Ramshaw L, Marcus M (1995) 基于转换学习的文本分块。在:第三届大型语料库研讨会,https://aclanthology.org/W95-0107


Samy D,Arenas-García J,Pérez-Fernández D(2020)Legal-ES:用于西班牙语法律文本处理的大规模资源集。在:Samy D,Pérez-Fernández D,Arenas-García J(编)第一届政府和公共行政语言技术研讨会论文集(LT4Gov)。


系统

为了
the
匿名化


Please provide the Romanian text you would like translated

法理学


欧洲语言资源协会,马赛,法国,第 32-36 页,https://aclanthology.org/

2020.lt4gov-1.6


Stenetorp P, Pyysalo S, Topić G 等人 (2012) brat:一个基于 Web 的 NLP 辅助文本标注工具。在:Segond F(编)第 13 届欧洲计算语言学协会会议演示文集。计算语言学协会,阿维尼翁,法国,第 102-107 页,https://aclanthology.org/E12-2021


Straka M,Hajič J,Straková J(2016)UD-pipe:用于处理 conll-u 文件的可训练管道,执行分词、形态分析、词性标注和解析。在:第十届语言资源与评估国际会议(LREC 2016)论文集。欧洲语言资源协会,斯洛文尼亚波尔托罗日。


Trias F, Wang H, Jaume S, 等 (2021) 历史法律文本中的命名实体识别:一种变压器和状态机集成方法。在:Aletras N, Androutsopoulos I, Barrett L, 等 (编) 2021 年自然法律语言处理研讨会会议记录。计算语言学协会,多米尼加共和国 Punta Cana,第 172–179 页,https://doi.org/10.18653/v1/2021.nllp-1.18https://aclanthology.org/2021.nllp-1.18


Tufiş D, Barbu Mititelu V, Irimia E 等 (2019) 小微击倒大橡树。创建 CoRoLa,现代罗马尼亚语参考语料库。罗马尼亚语言学评论 64(3):227–240 Tufiş D, Mitrofan M, Păiş V 等 (2020) 罗马尼亚法律语料库的收集与注释。载于:第 12 届语言资源与评估会议论文集。欧洲语言资源协会,法国马赛,页码 2766–2770, https://www.aclweb.org/anthology/2020.lrec-1.337/


Vanallemeersch T, Szoc S (2021) 最终报告 d91.1 匿名化规范。SMART 2019/1083 欧盟共同资助自动翻译核心服务平台行动


Váradi T,Koeva S,Yamalov M 等人(2020)Marcell 立法语料库。在:第 12 届语言资源与评估会议论文集。欧洲语言资源协会,法国马赛,第 3754-3761 页,https://www.aclweb.org/anthology/2020.lrec-1.464/


Váradi T,Nyéki B,Koeva S 等人(2022)介绍 curlicat 语料库:来自精选来源的七种语言领域特定标注语料库。在:语言资源与评估会议论文集。欧洲语言资源协会,法国马赛,第 100-108 页,https://aclanthology.org/2022.lrec-1.11


Yu J, Bohnet B, Poesio M (2020) 命名实体识别作为依存句法分析。在:Jurafsky D, ChaiJ, Schluter N 等人(编辑)计算语言学协会第 58 届年会论文集。计算语言学协会,在线,第 6470-6476 页,https://doi.org/10.18653/v1/2020.acl-main.577https://aclanthology.org/2020.acl-main.577


出版商声明:施普林格·自然对出版地图中的管辖权声明保持中立


以及机构隶属关系。


施普林格·自然或其许可方(例如,学会或其他合作伙伴)根据与作者或其他权利人签署的出版协议,对本文拥有独家权利;作者自行存档本文的接受稿版本,仅受该出版协议和适用法律的约束。