上述简要描述的要求进一步强调了命名实体识别(NER)与匿名化之间的区别。虽然 NER 涉及检测与命名实体(NE)相关的文本片段并将其分类为某一特定类别,但匿名化则要复杂得多,需要额外的步骤来决定是否需要将识别的 NE 从文档中删除。在识别出需要匿名化的文本片段及其对应类别后,必须就替换文本做出决定。我们决定根据类别使用不同的替换算法,如下所示:代码(例如土地登记、公司登记、ECLI)用随机数量的“#”字符替换;随机首字母替换组织和人名;其他类别(例如电话、地址、日期、电子邮件)由一个表示该类别的单词后跟一个计数器(例如“Email1”)替换。在随机首字母或跟随计数器的单词的情况下,这些在属于同一案件的文档中保持一致。这有助于提高匿名化文档的可读性。
3 相关工作
匿名化正成为公共管理、研究和工业的首要任务。机器翻译是需要大量数据的关键领域之一,而从互联网收集的数据在投入生产之前需要进行匿名化。欧盟委员会 (EC)、EC 的数字服务基础设施 (DSI) 以及大量敏感数据的所有者和创建者必须在向公众发布之前对文件进行匿名化。CrossLang 的综合报告 (Vanallemeersch 和 Szoc 2021) 回顾了一些深入研究匿名化过程的欧洲项目,并讨论了可用的(公共和商业)匿名化工具。在与自动匿名化领域的主要利益相关者(与 NER 和匿名化相关的项目联盟、法律、警察和医疗领域敏感文件匿名化专家、来自 EC 和行业的翻译技术专家)组织的咨询回合中,作者综合了一些关于匿名化最佳实践的基本和高级场景。 对于像我们这样的单语环境,提出的工作流程涉及一个用于 NER 的深度学习模型,并结合 NE 列表和 NE 的正则表达式列表。一些针对匿名化的欧洲行动包括:ELRC、CEF 数据市场、COMPRISE、ParaCrawl、MAPA - 公共行政的多语言匿名化(Arranz)
当前的匿名化方法以某种序列分类为起点,其中将标记编码为实向量,并在感兴趣的标签之一中对连续的跨度进行分类。应用于法律领域,并针对特定实体,如人、案件编号、文档 ID 等,这种类型的序列分类是在法律领域中熟悉的命名实体识别(NER)任务。存在“扁平 NER”和“嵌套 NER”的区分(Yu 等,2020),其中扁平 NER 是将一段连续的标记分配一个标签的任务,而嵌套 NER 可以将不同的标签分配给包含跨度内的标记子跨度,并有其自己的标签。就我们的目的而言,我们只对扁平 NER 感兴趣,并且仅讨论与此场景相关的工作。
MAPA(Arranz 等人,2022 年)使用深度学习模型和正则表达式来检测和分类敏感实体。它通过神经语言模型替换、随机字符替换和基于词典的替换来匿名化数据。用户可以为各种实体类型和语言定制这些策略。尽管从合成数据创建过程中继承的噪声存在缺陷,但在法律和医疗语料库中的大多数文档中,保留数据的召回率和 F1 得分都超过了 0.895 的阈值。在 CURLICAT 项目中,使用假名化使数据不易归因于特定个人,区分局部(单个文本内)和全局假名化(跨多个文本)。罗马尼亚语使用局部假名化方法,保留后缀以保持语言完整性。同时,其他语言采用经过调整的命名实体识别模型,用与上下文相关的占位符替换敏感实体。 罗马尼亚匿名化系统依赖于一个预先存在的 NER 模块,该模块通过文本标记进行增强,例如句子中首字母大写的单词,以进一步匿名化潜在的未识别实体,从而提高匿名化精度,超过 NER 系统的性能。对于其他语言,CURLICAT 采用了基于 BERT 模型的语言特定版本的 NER 模型。
他们使用预训练的 Transformer 神经网络为句子中的词语分配词性,然后将输出馈送到有限状态机以识别人物姓名。他们承认使用昵称或首字母而不是完整姓名会带来问题。尽管 NER 和匿名化是不同的任务,如前一节所述,匿名化更具挑战性,需要在上下文中识别仅需匿名化的 NER 实体子集,但 NER 方法仍然与匿名化相关。在这种情况下,Leitner 等人(2019)对德国法律文件语料库(Leitner 等人,2020)进行了细粒度 NER。他们将 CRF 和 BiLSTM 模型应用于细粒度 NER 任务,其中包含 19 个不同的法律类别,自动映射到 7 个粗粒度类别。CRF 模型使用词汇特征、地名词典和查找表,而 BiLSTM 模型使用不同类型的字符嵌入。结论是,具有字符嵌入的 BiLSTM 模型优于 CRF 模型。将这项工作与本文中描述的工作进行比较,我们使用了更高级的上下文建模神经网络(例如, 基于 Transformer 编码器的 BERT 编码器),我们开发了一种投票方案,能够从任意数量的 NER 模型中为每个词元组装一个最终的 NER 标签。除了使用地名词典,我们还开发了专门的正则表达式,能够识别我们感兴趣的法律 NE 类型。Legal-ES(Samy 等人,2020)是一个大型西班牙语语料库,涵盖了不同类型的立法、行政和司法文本。Kalamkar 等人(2022)描述了一个针对印度法院判决的 NER 语料库,涵盖了 14 个 NE 类别。他们使用了一种最先进的 NER 方法,在 BERT 编码器模型计算的词元向量之上添加了一个分类层,与我们这里采用的方法相同。最终的 NER 标签经过一个后处理阶段,该阶段根据文档级上下文细化 NER 注释。出于我们的目的,句子级上下文足以创建有效的匿名化,我们还采用了一个后处理阶段,在该阶段中,冲突的法律 NE 跨度被协调,以便生成的跨度表示目标法律 NE。
对于罗马尼亚语,(Păiş et al. 2021a)在一个大型语料库上进行了匿名化实验(不包括法律领域的文件)。作者使用基于 BiLSTM 单元的循环神经网络,并最终添加了 CRF 层。使用了额外的特征,这些特征来源于词表示、字符嵌入、地名资源和已知词缀。LegalNERo(Păiş et al. 2021c)是一个罗马尼亚法律领域的 NER 语料库,进一步由(Costea et al. 2022)扩展,包含细粒度法律参考。Păiş et al.(2021b)、Păiş和 Mitrofan(2021)描述了罗马尼亚法律领域的 NER 系统。Masala et al.(2021)介绍了一个用于法律判决预测的罗马尼亚 BERT 模型。Barbu Mititelu et al.(2022)描述了以链接数据格式呈现的自然语言资源,包括法律领域资源。MicroBloggingNERo(Păiş et al. 2022)是一个微博客语料库,包含多种 NER 注释,包括法律引用。然而,这些实验中没有一个专注于法学数据,正如我们在以下部分所述。MARCELL - CEF.AT 法律领域的多语言资源(Váradi et al. 2020、Tufiş et al. 2020)是一个包含罗马尼亚语的立法语料库。立法(相对而言
V.帕伊什和其他人
关于法律(法学)的内容不需要匿名化,但法律领域的文本可以用于训练或改进特定领域的语言模型。
4 数据集
训练目前最先进的语言模型,基于人工深度神经网络架构,需要手动标注的实体数据集以进行匿名化。尽管在法律领域中有一些罗马尼亚语言的数据集可用(如第 3 节所述),但没有一个可以直接用于这个项目。它们要么包含不同的标注类型(LegalNERo,CURLICAT),要么法律领域的文本集中于立法而不是法理学(MARCELL)。因此,创建了一个新的带有匿名化标注的法理学数据集。我们使用 RELATE (Păiş et al. 2020)平台的语料管理和手动标注模块进行其标注。该平台集成了 BRAT (Stenetorp et al. 2012)组件以执行标注。
与外部系统(主要是 ReJust 门户和 RELATE 平台)的通信通过一个集成组件来处理。它提供了 5 个 API 端点:startAnonymization、getResult、doAnonymization、checkHealth、getVersion。API 仅使用 JSON 编码。文档使用 Base64 编码为 JSON 格式。API startAnonymization 和 getResult 用于异步匿名化。使用等待匿名化的文档队列。这种方法主要用于后台匿名化任务,旨在匿名化大量文档。一旦文档通过系统处理(无论成功与否),它会被移动到一个单独的已准备文档队列中。状态和任何消息(错误或警告)作为与处理文档相关的元数据可用。API doAnonymization 使用优先队列并等待文档处理完成后再返回。这种同步方法对在线用户的请求单个文档的互动匿名化非常有用。checkHealth API 调用所有正在运行的模块实例的相应 checkHealth 端点,并报告系统状态的摘要。 这旨在与网络监控应用程序一起使用,以在检测到错误条件时自动重启系统(或采取其他纠正措施,例如检查存储映射和功能)。getVersion API 报告当前运行的管道的版本。
编排组件首先确保基本系统功能(与存储设备通信,操作系统资源可用性,例如内存),然后读取配置文件并实例化管道。它通过监控其 checkHealth API 来等待管道模块就绪。管道就绪后,它开始处理文档队列。处理完常规队列中的一个文档后,它会检查优先级队列中是否有任何文档等待处理,并开始处理它们。最后,已处理的文档将移至就绪队列,集成组件可以通过已描述的 API 调用发送相应的状态。
系统 为了the 去标识化 的 罗马尼亚语 法理学
系统图如图 2 所示。10 种可用的模块类型如下:
文本提取器将文档从其原始格式(TXT、DOCX、HTML)转换为结构化的 CoNLL-U Plus 格式。此格式包含标记化的文本、基本语言注释(词元、词性、依赖解析树)及每个标记在原始文档中的位置,从而在识别替代标记后便于轻松重建原始内容。此模块对于将非结构化文本转换为适合进一步分析的结构化格式至关重要。
该管道实现的准确率为 0.98。这与标记的二元分类类似,其中每个标记要么被匿名化,要么没有。公式在等式 1 中给出。在这种情况下,如果一个标记满足以下条件,则被认为识别正确:(a)被识别为属于需要匿名化的实体,并且在人工标注的金数据集中被标记,或者(b)在金数据集中未被标记,并且未被系统识别。从 NER 的角度来看,这相当于将所有实体类别合并成一个宏类别。结果是相关的,因为无论实体类别是什么(可能是错误的),相应的文本都会被匿名化。结果在评估数据集上报告,如第 4 节所述。此外,我们计算了匿名化管道的宏平均精确率 (P=0.85)、召回率 (R=0.96) 和 F1 分数 (F1=0.89)。
精度 =
正确识别的标记
总令牌数
(1)
系统 为了the 去标识化 的 Please provide the Romanian text you would like translated 法学
特定实体类别的识别仍然相关,因为某些类别被特定值(如“车辆 1”)替换。我们使用两种语言模型(基于罗马尼亚 BERT 和 XLM-RoBERTa)进行了实验。尽管它们达到了相同的准确性,但宏观 F1 分数有所不同:
基于 BERT 的模型为 0.65,基于 XLM-RoBERTa 的模型(带有侧抑制)为 0.69。表 3 给出了使用这两个模型的完整流水线的个体分类统计数据(精确率、召回率和 F1),其中包含了评估数据集中存在的实体类别。报告的 NER 准确率远高于表 3 中的 F1 分数,因为模型难以确定正确的 NE 类别。例如,类别 ID、DOCNUMBER、CUI 和 CNP 涵盖了外观相似的文本跨度。有时,即使在句子级别,上下文也可能模棱两可。给定字符串“The document XXXXX was issued by YYYYY”,不清楚该文档是指身份证明文件还是其他 NE 类别。类似地,基于人名的组织名称会与人物实体混淆。所有这些都降低了各个 NE 类别的 F1 分数,同时保持了整体较高的匿名化准确率。
本文介绍了为创建一个能够匿名化罗马尼亚法 jurisprudence 的系统所做的工作,以及一个适合该任务的新原始数据集(用于训练和测试的语料库)。据我们所知,这在可用数据集中是为数不多的,并且无疑是罗马尼亚语的第一个。这是一项非常有挑战性的任务,在自动处理方面有其独特性。由于文本中并非所有实体都必须匿名化,这使得这项工作与常规的命名实体识别(NER)方法不同。我们设计了一个结合多种算法的系统,包含基于大型语言模型的类似 NER 模块,也包括更传统的技术,如字典和正则表达式。这一设计决策使用户能够完全控制,选择/调整最适合输入数据特性的处理链。尽管完全标注
鉴于 NER 和匿名化之间的差异,在整体系统评估方面,传统的 NER 指标,如每类 F1 分数,似乎不太相关。准确率和召回率更好地概述了最终文档的匿名化程度。高召回率确保很少敏感实体逃脱匿名化,而低精确度表明许多匿名化实体不应该被处理。然而,提高单个类别的精确度有助于提高可读性,因为较少的标记被错误地从文本中删除。此外,提高精确度允许使用假名更好地编码匿名化跨度,这进一步提高了可读性。未来的研究将考虑扩展数据集和训练系统,以提高文本跨度的分类精度。由于该系统提供了一个动态的匿名化管道,它将在生产中进行微调,基于对验证匿名化文档的人员的观察。可以采用不同的策略来组合各个模块的结果。随着更多经过验证的文档变得可用,它们可以用来扩展数据集。 基于较大数据集的最佳策略可能与当前工作所使用的评估数据集不同。甚至可以想象,不同的法学类别可能会受益于略有不同的处理流程。例如,商业法下的案件往往涉及更多的组织主体。因此,相比于偏向个人的处理流程,偏向于对组织进行匿名化的处理流程在这种情况下可能表现得更好(尽管这种类型的处理流程对于处理刑法案件可能会更好)。
Masala M, Iacob RCA, Uban AS 等(2021)jurBERT:一个用于法律判决预测的罗马尼亚 BERT 模型。在:Aletras N, Androutsopoulos I, Barrett L 等(编辑)《2021 年自然法律语言处理研讨会会议论文集》。计算语言学协会,多米尼加共和国蓬塔卡纳,第 86-94 页,https://doi.org/10.18653/v1/2021.nllp-1.8https://aclanthology.org/2021.nllp-1.8
Mitrofan M, Păiş V (2022) 利用生物启发系统改进罗马尼亚生物医学命名实体识别。在:生物医学语言处理研讨会论文集。计算语言学协会,爱尔兰都柏林,第 316-322 页,https://aclanthology.org/2022.bionlp-1.30
Păiş V, Ion R, Tufiş D (2020) 一个与罗马尼亚语言相关的数据和工具处理平台。编者:Rehm G, Bontcheva K, Choukri K 等,第 1 届国际语言技术平台研讨会论文集。欧洲语言资源协会,法国马赛,第 81–88 页,https://aclanthology.org/2020.iwltp-1.13
Păiş V, Ion R, Avram AM 等 (2021) 罗马尼亚自然语言处理管道的深入评估。罗马尼亚信息科学与技术杂志 (ROMJIST) 24(4):384–401 Plamondon L, Lapalme G, Pelletier F (2004) 法院裁决的匿名化。见:Blache P, Nguyen N, Chenfour N 等 (编) 第 11 届自然语言处理会议论文集。长篇文章。ATALA, 法斯, 摩洛哥, 第 159–168 页, https://aclanthology.org/2004.jeptalnrecital-long.17