这是用户在 2024-4-17 11:01 为 https://app.immersivetranslate.com/pdf-pro/88827558-8250-4df4-8e48-c06293537751 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
2024_04_17_64b155d1040812859901g


牛轧糖:用于学术文件的神经光学理解

Lukas Blecher*

Guillem Cucurull
Thomas Scialom
Robert Stojnic
Meta AI

 摘要


科学知识主要存储在书籍和科学期刊中,通常以PDF形式存在。然而,PDF格式会导致语义信息的丢失,特别是对于数学表达式。我们提出了Nougat(学术文档的神经光学理解),这是一个视觉Transformer模型,用于执行光学字符识别(OCR)任务,将科学文档处理成标记语言,并展示了我们模型在新的科学文档数据集上的有效性。所提出的方法为增强数字时代科学知识的可访问性提供了一个有前途的解决方案,通过弥合人类可读文档和机器可读文本之间的差距。我们发布了模型和代码,以加速未来科学文本识别工作的进行。

 介绍


科学知识的大部分存储在书籍中或发表在科学期刊上,最常见的格式是便携式文档格式(PDF)。除了HTML之外,PDF是互联网上第二常见的数据格式,占据了常见爬网数据的 。然而,这些文件中存储的信息很难提取到其他格式中。这对于高度专业化的文件尤其如此,比如科研论文,其中数学表达式的语义信息会丢失。

现有的光学字符识别(OCR)引擎,如Tesseract OCR [2],擅长于检测和分类图像中的单个字符和单词,但由于其逐行处理的方式,无法理解它们之间的关系。这意味着它们将上标和下标与周围文本以相同方式处理,这对数学表达式来说是一个重大缺点。在分数、指数和矩阵等数学符号中,字符的相对位置至关重要。

将学术研究论文转换为机器可读文本还可以实现科学整体的可访问性和可搜索性。数百万学术论文的信息无法完全获取,因为它们被锁在无法阅读的格式之后。现有的语料库,如S2ORC数据集[3],使用GROBID[4]捕获论文的文本,但缺少数学方程式的有意义表示。

为此,我们引入了Nougat,这是一个基于Transformer的模型,可以将文档页面的图像转换为格式化的标记文本。

本文的主要贡献是


发布一个能够将PDF转换为轻量标记语言的预训练模型。我们在GitHub上发布了代码和模型。


我们引入了一个流程来创建将PDF文件与源代码配对的数据集


我们的方法仅依赖于页面的图像,可以访问扫描的文件和书籍

图1:我们简单的端到端架构遵循Donut [28]。Swin Transformer编码器接收文档图像并将其转换为潜在嵌入,随后以自回归方式将其转换为一系列标记。

光学字符识别(OCR)是计算机视觉领域中一个经过广泛研究的领域,用于各种应用,如文档数字化,手写识别和场景文本识别。

更具体地说,识别数学表达式是一个深受研究的子课题。手写数学表达式的基于语法的方法[9-11]得到了不同的编码器-解码器模型的改进。完全卷积模型[12]被各种RNN解码器模型[13-17]所取代,用于手写和印刷公式。最近,解码器[18, 19]和编码器[20]被Transformer[21]架构所取代。

视觉文档理解(VDU)是深度学习研究的另一个相关主题,重点是提取各种文档类型的相关信息。先前的研究依赖于预训练模型,通过使用Transformer架构联合建模文本和布局信息来学习提取信息。LayoutLM模型系列[22-24]使用掩码布局预测任务来捕捉不同文档元素之间的空间关系。

与我们有关目标的开源解决方案包括GROBID [4],它将数字化科学文档解析为XML,重点放在参考文献数据上,以及pdf2htmlEX [25],它将数字化PDF转换为HTML,同时保留文档的布局和外观。然而,这两种解决方案都无法恢复数学表达式的语义信息。

3 Model


以前的VDU方法要么依赖于第三方工具的OCR文本,要么专注于收据、发票或类似表单的文档类型。最近的研究表明,在VDU中并不一定需要外部OCR引擎才能取得竞争性的结果。

该架构是一个编码器-解码器变压器[21]架构,允许进行端到端的训练过程。我们基于Donut [28]架构进行构建。该模型不需要任何OCR相关的输入或模块。文本是由网络隐式识别的。有关方法的概述,请参见图1。

视觉编码器接收文档图像 ,裁剪边距并调整图像大小以适应固定尺寸的矩形 。如果图像小于矩形,则添加额外填充以确保每个图像具有相同的维度。我们使用Swin Transformer [30],一种分层视觉Transformer [31],将图像分割为固定大小的不重叠窗口,并应用一系列自注意力层来聚合这些窗口中的信息。模型输出嵌入式补丁的序列 ,其中 是潜在维度, 是补丁数量。

解码器 使用变压器解码器架构和交叉注意力将编码图像 解码为一系列令牌。 令牌以自回归方式生成,使用自注意力和交叉注意力分别关注输入序列和编码器输出的不同部分。 最后,输出投影到词汇表 的大小,产生对数

根据Kim等人的研究,我们使用mBART解码器的实现。我们使用与Taylor等人相同的分词器,因为他们的模型也专门针对科学文本领域。

图2:在示例文档片段上训练时使用的不同图像增强方法列表。

3.1 Setup


我们以96 DPI的分辨率呈现文档图像。由于Swin Transformer可能的输入尺寸限制,我们选择了输入尺寸 。纵横比介于美国信纸和A4纸之间 。文档图像被调整大小并填充以达到所需的输入尺寸。这个输入尺寸使我们能够使用Swin基础模型架构[30]。我们使用预训练的权重初始化模型。

Transformer解码器具有最大序列长度为 。这种相对较大的尺寸是因为学术研究论文的文本可能很密集,特别是表格的语法需要大量的标记。BART解码器是一个仅有10层的解码器变压器。整个架构总共有 个参数。我们还尝试了一个较小的模型(250M参数),序列长度稍小为 ,只有4个解码器层,我们从预训练的基础模型开始。

推理过程中使用贪婪解码生成文本。

训练 我们使用AdamW优化器[34]进行3个时期的训练,有效批量大小为192。由于训练不稳定,我们选择学习率为 ,每15次更新减少0.9996倍,直到达到

3.2 Data Augmentation


在图像识别任务中,通常使用数据增强来提高泛化能力。由于我们只使用数字化的学术研究论文,我们需要使用一系列转换来模拟扫描文档的不完美和变化。这些转换包括腐蚀、膨胀、高斯噪声、高斯模糊、位图转换、图像压缩、网格扭曲和弹性变换[35]。每种转换都有固定的应用概率。这些转换是在Albumentations[36]库中实现的。有关每种转换效果的概述,请参见图2。

在训练过程中,我们还通过随机替换标签来对地面真实文本添加扰动。我们发现这可以显著减少陷入重复循环的情况。更多细节请参见第5.4节。

图3:数据处理。源文件被转换为HTML,然后转换为Markdown。a)作者提供的LaTeX源文件。b)使用LaTeXML从LaTeX源文件计算得到的HTML文件。c)从HTML文件解析得到的Markdown文件。d)作者提供的PDF文件。

4 Datasets


据我们所知,目前没有PDF页面和相应源代码的配对数据集,因此我们从 上的开放获取文章中创建了自己的数据集。为了增加布局多样性,我们还包括了PubMed Central (PMC)开放获取非商业数据集的子集。在预训练期间,还包括了一部分Industry Documents Library (IDL)的数据。有关数据集组成,请参见表A.1。

我们收集了 arXiv 上发布的 1,748,201 篇文章的源代码并编译成 PDF 文件。为了确保一致的格式,我们首先使用 处理源文件并将其转换为 HTML5 文件。这一步骤很重要,因为它标准化并消除了 LaTeX 源代码中的歧义,特别是在数学表达式中。转换过程包括替换用户定义的宏、标准化空格、添加可选括号、规范化表格,并用正确的数字替换引用和引文。

然后我们解析HTML文件,并将它们转换为一种支持各种元素的轻量级标记语言,如标题、粗体和斜体文本、算法、LaTeX内联和显示数学以及LaTeX表格。通过这种方式,我们确保源代码被正确格式化并准备好进行进一步处理。

该过程在图3中可视化。

我们还处理了来自PMC的文章,除了PDF文件外,还提供了带有语义信息的XML文件。我们将这些文件解析成与arXiv文章相同的标记语言格式。我们选择使用来自PMC的文章要少得多,因为XML文件中的语义信息并不总是那么丰富。通常情况下,方程式和表格被存储为图像,这些情况不容易检测,这导致我们决定将PMC文章的使用限制在预训练阶段。

XML文件被解析成与上述描述相同的标记语言。

IDL是由对公共健康产生影响的行业制定的文件集合,由加利福尼亚大学旧金山分校图书馆维护。Biten等人[37]为IDL数据集中的PDF提供高质量的OCR文本。这不包括文本格式设置,仅用于预训练,教导模型扫描文档的基本OCR。


4.1 分割页面


我们根据PDF文件中的分页符将Markdown文件拆分,并将每一页转换为图像,以创建最终的配对数据集。在编译过程中,LaTeX编译器会自动确定PDF文件的分页符。由于我们不会为每篇论文重新编译LaTeX源文件,因此我们必须启发式地将源文件拆分为对应不同页面的部分。为了实现这一点,我们使用PDF页面上的嵌入文本,并将其与源文本进行匹配。

然而,PDF 中的图表可能与源代码中的位置不对应。为解决这个问题,

图4:将源代码中的段落拆分为不同页面的示例。蓝色点表示SVM预测的页面索引。

我们使用pdffigures2 [38] 在预处理步骤中去除这些元素。然后,识别出的标题与XML文件中的标题进行比较,并根据它们的Levenshtein距离进行匹配 [39]。一旦源文档被拆分为单独的页面,已移除的图形和表格将重新插入到每页的末尾。为了更好地匹配,我们还使用pylatexenc库将PDF文本中的Unicode字符替换为相应的LaTeX命令。

词袋匹配 首先,我们使用MuPDF从PDF中提取文本行,并对其进行预处理以删除页码和潜在的页眉/页脚。然后,我们使用TF-IDF向量化器和线性支持向量机分类器的词袋模型[40]。该模型适配PDF行,以页码作为标签。接下来,我们将LaTeX源代码拆分为段落,并为每个段落预测页码。

理想情况下,预测结果会形成一个阶梯函数,但实际上信号会有噪音。为了找到最佳的边界点,我们采用类似于决策树的逻辑,并最小化基于基尼不纯度的度量。

其中 是选择具有预测页码 的元素的概率,在描述了哪些段落(元素)被考虑用于拆分的区间 中。

在区间 中的最佳分割位置是

搜索过程从所有段落开始,对于每个后续页面分隔,搜索区间的下界被设置为先前的分割位置。请参见图4,以查看示例页面的可视化。

模糊匹配 在进行第一次粗略文档拆分后,我们尝试找到段落内的确切位置。这是通过将预测的拆分位置周围的源文本与嵌入式PDF文本上一页的最后一句和下一页的第一句进行比较来完成的,使用fuzzysearch库。如果两个分割点在源文本中的位置相同,则认为页面分隔符是“准确的”,并获得得分1。另一方面,如果拆分位置不同,则选择具有最小归一化Levenshtein距离的位置,并给予得分1减去距离。要包含在数据集中,PDF页面的两个页面分隔符的平均得分必须至少为0.9。这导致所有页面的接受率约为的。

4.2 Ground truth artifacts


由于数据集经过LaTeXML预处理,源代码的标记版本可能包含来自不受支持的包的痕迹和命令。HTML文件中可能包含带编号的子标题,即使在PDF中它们没有编号。也可能出现由于处理错误导致地面真相中缺少图表的情况。

此外,源代码的拆分算法在某些情况下会包括上一页的文本或截断末尾的单词。这对于用于格式化的“隐形”字符,如斜体、粗体文本或章节标题,尤其明显。

对于PMC论文,内联数学公式以Unicode或斜体文本形式编写,而显示数学公式或表格通常以图像格式包含,因此将被忽略。

这些问题每一个都会降低整体数据质量。然而,大量的训练样本弥补了这些小错误。


5 结果与评估


图5:来自[41]的包含许多数学方程式的页面示例。左:文档中的页面图像,右:模型输出转换为LaTeX并渲染回PDF。扫描文档的示例可在附录B中找到。

在本节中,我们讨论模型的结果和性能。示例请参见图5或转到B节。该模型仅关注页面的重要内容相关特征。方程式周围的框被跳过。

5.1 Metrics


我们报告了我们测试集上的以下指标。

编辑距离是指从一个字符串到另一个字符串所需的字符操作次数(插入、删除、替换)。在这项工作中,我们考虑归一化的编辑距离,即通过总字符数进行除法运算。

BLEU BLEU [42]指标最初是用于衡量从一种语言翻译成另一种语言的文本质量。该指标根据候选句子和参考句子之间匹配的n-gram数量计算得分。

METEOR是另一个机器翻译度量标准,侧重于召回率而非精确度,引自[43]。

我们还计算F1分数,并报告精确率和召回率。
Method Modality Edit distance BLEU METEOR Precision Recall F1
PDF All 0.255 65.8 82.1 77.1 81.4 79.2
All 0.312 55.6 71.9 74.0 72.1 73.0
+ LaTeX OCR  表格 0.626 25.1 64.5 61.4 80.7 69.7
Plain text 0.363 57.4 69.2 82.1 70.5 75.9
Math 0.727 0.3 5.0 11.0 8.6 9.7
Nougat small All 0.073 88.9 92.8 92.2 92.9
 表格 0.220 68.5 78.6 75.0 79.8 77.3
Plain text 0.058 91.0 94.3 96.1 95.3 95.7
Math 0.117 56.0 74.7 77.1 76.8 76.9
All 93.5
 表格 0.211 69.7 79.1 75.4 80.7 78.0
Plain text 0.058 91.2 94.6 96.2 95.3 95.7
Math 0.128 56.9 75.4 76.5 76.6 76.5

表1:arXiv测试集上的结果。PDF是嵌入在PDF文件中的文本。模态“全部”指的是没有任何分割的输出文本。参数数量。

5.2 Text modalities


在科学研究文章中,有三种不同类型的文本:1)普通文本,占据了文档的大部分内容,2)数学表达式,和3)表格。在评估过程中,分别检查这些组成部分是很重要的。这是必要的,因为在数学表达式中,有多种表达相同数学表达式的方式。虽然在LaTeXML预处理步骤中已经消除了一些变化性,但仍然存在大量的歧义,比如下标和上标的顺序,具有不同符号的等效命令(stackrel,atop,substack或frac,over),在不同情况下可互换的命令(bm,mathbf,boldsymbol,bf或(,\big(等),空白命令,额外的括号层次等。因此,即使呈现的公式看起来相同,预测和实际情况之间可能存在差异。

此外,在写数字和标点符号时,不总是能确定行内数学环境何时结束以及文本何时开始(例如: mathrm ,与 ,与 ,)。这种模糊性降低了数学和纯文本的得分。

数学表达式的预期得分低于普通文本。

5.3 Comparison


我们在表1中展示了我们的结果。正如预期的那样,数学表达式与实际情况的一致性最差。对于纯文本,大多数差异来自于格式模糊和由于内联数学而导致的缺失文本,如上所述。GROBID的输出格式是一个XML文件,我们将其转换为兼容的标记语言,类似于PMC或arXiv文件。在一定程度上,GROBID在其输出中提供了对公式的支持,但它将其识别并存储为嵌入在PDF中的Unicode表示。我们用相应的LaTeX命令替换每个Unicode符号以增加相似性。此外,GROBID错误地将小型内联表达式标记为文本。对于识别的公式,GROBID存储了边界框坐标。我们通过将片段发送到外部公式识别软件LaTeX-OCR [20]来修改程序。这样我们也可以获得数学模态的信号。本节中报告的结果相当糟糕,主要是由于GROBID错过的公式数量以及方程预测准确性受到边界框质量的影响。 嵌入式PDF文本的性能单独优于GROBID,这是由于标题页或参考部分的格式差异。

Nougat小型和基础模型都能胜过另一种方法,并在所有指标上取得高分。我们注意到,较小模型的性能与较大基础模型相当。


图6:对logits上的重复检测示例。顶部:带有重复的样本,底部:不带重复的样本。左侧:序列中每个标记的最高logit分数


5.4 推理过程中的重复


我们注意到模型陷入了一遍又一遍地重复相同句子的状态。模型无法自行恢复。在其最简单的形式中,最后一句或段落会一遍又一遍地重复。我们在测试集的 页中观察到了这种行为,但在域外文档中这种频率会增加。当使用贪婪解码进行采样时,基于Transformer的模型陷入重复循环的问题是众所周知的[44]。模型有时会在两个句子之间交替,但有时会更改一些词,因此严格的重复检测是不够的。更难检测的是模型计算自己重复的预测,有时会出现在参考文献部分。

通常我们会在模型犯错后注意到这种行为。模型无法从崩溃中恢复。

反复增强 由于这个原因,我们在训练过程中引入了随机扰动。这有助于模型学习如何处理错误预测的标记。对于每个训练示例,存在一个固定的概率,随机标记将被任意选择的其他标记替换。这个过程会持续下去,直到新采样的数字大于指定的阈值(在本例中为 )。我们没有观察到这种方法导致性能下降,但我们确实注意到重复次数显著减少。特别是对于领域外文档,我们看到了 失败页面转换的下降。

重复检测 由于我们最多生成4096个标记,模型会在某个时刻停止,然而在没有"句子结束"标记的情况下等待是非常低效且资源密集的。为了在推理时检测重复,我们查看第i个标记的最大logit值。我们发现,在折叠后,logits可以使用以下启发式方法分开。首先计算大小为 的滑动窗口的logits的方差。

这里是对logits的信号,索引为

如果此信号下降到低于一定阈值(我们选择6.75)并在序列的其余部分保持在该阈值以下,我们将分类该序列具有重复。

在推理阶段,如果我们的目标是在较早的时间点停止生成,显然不可能计算到序列的末尾。因此,在这里我们使用最后200个标记的子集和一半的阈值。生成完成后,按照上述描述的程序对整个序列重复执行。

5.5 Limitations & Future work


模型的效用受到多种因素的限制。首先,在第5.4节中概述的重复问题。该模型是在研究论文上训练的,这意味着它在具有类似结构的文档上表现特别好。然而,它仍然可以准确地转换其他类型的文档。

几乎每个数据集样本都是英文。对一个小样本的初步测试表明,模型在其他基于拉丁语言的语言上的表现是令人满意的,尽管这些语言中的任何特殊字符都将被替换为拉丁字母表中最接近的等价字符。非拉丁文字语言会导致即时重复。

在配备有 NVIDIA A10G 显卡和 24GB VRAM 的机器上,我们可以并行处理 6 页。生成速度严重依赖于每页的文本量。对于平均令牌数量为 的情况,基础模型的平均生成时间为每批 19.5 秒,没有进行任何推理优化。与传统方法(GROBID 10.6 PDF/s [4])相比,这个速度非常慢,但不仅限于数字化 PDF,并且可以正确解析数学表达式。

未来工作模型是逐页训练的,没有关于文档中其他页面的知识。这导致文档中存在不一致性。最明显的是参考文献部分,模型在不同样式上进行训练,或者在某些情况下节标题中跳过或虚构数字。尽管单独处理每个页面显著提高了并行性和可扩展性,但可能会降低合并文档文本的质量。

需要解决的主要挑战是模型容易陷入重复循环,这留待将来解决。

6 Conclusion


在这项工作中,我们提出了Nougat,一种端到端可训练的基于编码器-解码器变压器的模型,用于将文档页面转换为标记。我们将最近的视觉文档理解进展应用于一项新颖的OCR任务。与相关方法不同,我们的方法不依赖于OCR或嵌入式文本表示,而是仅依赖于栅格化的文档页面。此外,我们展示了一种自动和无监督的数据集生成过程,我们用它成功地训练了用于科学文档到标记转换的模型。总的来说,我们的方法不仅显示了从数字化PDF中提取文本的巨大潜力,还可以用于转换扫描的论文和教科书。我们希望这项工作可以成为相关领域未来研究的起点。

所有模型评估、训练和数据集生成的代码都可以在https://github.com/facebookresearch/nougat 上访问。

7 Acknowledgments


感谢Ross Taylor,Marcin Kardas,Iliyan Zarov,Kevin Stone,Jian Xiang Kuan,Andrew Poulton和Hugo Touvron的宝贵讨论和反馈。

感谢Faisal Azhar在整个项目期间的支持。

 参考文献

[1] Sebastian Spiegler. Statistics of the Common Crawl Corpus 2012, June 2013. URL https://docs.google.com/file/d/ 1_9698uglerxB9nAglvaHkEgU-iZNm1TvVGuCW7245-WGvZq47teNpb_uL5N9.

R. Smith. Tesseract OCR引擎概述。在第九届国际文件分析与识别会议(ICDAR 2007)第2卷,页码629-633,巴西帕拉纳库里蒂巴,2007年9月。IEEE。ISBN 978-0-7695-2822-9。doi: 10.1109/ICDAR.2007.4376991。URL http://ieeexplore.ieee.org/document/4376991/。ISSN:

Kyle Lo、Lucy Lu Wang、Mark Neumann、Rodney Kinney和Daniel Weld。S2ORC:语义学者开放研究语料库。在第58届计算语言学协会年会论文集中,页面4969-4983,2020年7月在线举行。计算语言学协会。doi:10.18653/v1/2020.acl-main.447。URL https://aclanthology.org/2020.acl-main.447。

Patrice Lopez. GROBID,2023年2月。网址https://github.com/kermitt2/grobid。原始日期:2012-0913T15:48:54Z。

Bastien Moysset, Christopher Kermorvant和Christian Wolf. 全页文本识别:学习何时开始和何时停止,2017年4月。URL http://arxiv.org/abs/1704.08628. arXiv:1704.08628 [cs]。

达尔文·鲍蒂斯塔和罗维尔·阿蒂恩萨。使用置换自回归序列模型进行场景文本识别,2022年7月。网址http://arxiv.org/abs/2207.06966。arXiv:2207.06966 [cs] 版本:1。
[7] Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, and Furu Wei. TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models, September 2022. URL http://arxiv.org/abs/2109.10282. arXiv:2109.10282 [cs].
[8] Daniel Hernandez Diaz, Siyang Qin, Reeve Ingle, Yasuhisa Fujii, and Alessandro Bissacco. Rethinking Text Line Recognition Models, April 2021. URL http://arxiv.org/abs/2104.07787. arXiv:2104.07787 [cs].

Scott MacLean和George Labahn。一种利用关系语法和模糊集识别手写数学的新方法。《国际文档分析与识别杂志》(IJDAR),16(2):139-163,2013年6月。ISSN 1433-2825。doi:10.1007/s10032-012-0184-x。URL https://doi.org/10.1007/s10032-012-0184-x。

Ahmad-Montaser Awal, Harold Mouchre和Christian Viard-Gaudin。一种在线手写数学表达识别系统的全局学习方法。模式识别信件,35(C):68-77,2014年1月。ISSN 0167-8655。

Francisco Álvaro, Joan-Andreu Sánchez和José-Miguel Benedí。使用2D随机上下文无关文法和隐马尔可夫模型识别在线手写数学表达式。模式识别信件,35:58-67,2014年1月。ISSN 0167-8655。doi: 10.1016/j.patrec.2012.09.023。URL https://www.sciencedirect.com/science/article/pii/S016786551200308X。

Zuoyu Yan, Xiaode Zhang, Liangcai Gao, Ke Yuan和Zhi Tang. ConvMath: 一种用于数学表达式识别的卷积序列网络,2020年12月。网址http://arxiv.org/abs/2012.12619。arXiv:2012.12619 [cs]。

Yuntian Deng, Anssi Kanervisto, Jeffrey Ling和Alexander M. Rush. 图像到标记生成的粗到细注意力,2016年9月。网址http://arxiv.org/abs/1609.04938。arXiv:1609.04938 [cs] 版本:1。

Anh Duc Le和Masaki Nakagawa。通过生成的模式训练端到端系统进行手写数学表达式识别。在2017年第14届IAPR国际文件分析与识别会议(ICDAR)中,卷01,页面1056-1061,2017年11月。doi:10.1109/ICDAR.2017.175。ISSN:2379-2140。

Sumeet S. Singh. 教机器编码:具有视觉注意力的神经标记生成,2018年6月。网址http://arxiv.org/abs/1802.05415。arXiv:1802.05415 [cs]。

Jianshu Zhang, Jun Du和Lirong Dai. 多尺度密集编码器的手写数学表达式识别, 2018年1月. 网址http://arxiv.org/abs/1801.03530. arXiv:1801.03530 [cs].

Zelun Wang和Jyh-Charn Liu. 使用具有序列级训练的深度神经网络将数学公式图像翻译为LaTeX序列,2019年9月。URL http://arxiv.org/abs/1908.11415。arXiv:1908.11415 [cs, stat]。
[18] Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, and Ziyin Zhang. Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer, May 2021. URL http://arxiv.org/abs/2105. 02412. arXiv:2105.02412 [cs].

Mahshad Mahdavi、Richard Zanibbi、Harold Mouchere、Christian Viard-Gaudin和Utpal Garain。ICDAR 2019 CROHME + TFD:手写数学表达式识别和排版公式检测竞赛。2019年国际文件分析与识别会议(ICDAR),第1533-1538页,澳大利亚悉尼,2019年9月。IEEE。ISBN 978-1-72813-014-9。doi:10.1109/ICDAR.2019.00247。URL https://ieeexplore.ieee.org/document/8978036/。

Lukas Blecher。pix2tex - LaTeX OCR,2023年2月。网址https://github.com/lukas-blecher/LaTeX-OCR。原始日期:2020年12月11日16:35:13。
[21] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need, December 2017. URL http://arxiv.org/abs/1706.03762. arXiv:1706.03762 [cs].

Yiheng Xu, Minghao Li, 崔磊, Shaohan Huang, Furu Wei, 和 Ming Zhou. LayoutLM: 文本和版面的预训练用于文档图像理解. 在第26届ACM SIGKDD国际知识发现与数据挖掘会议论文集中, 页码1192-1200, 2020年8月. doi: 10.1145/3394486.3403172. URL http://arxiv.org/abs/1912.13318. arXiv:1912.13318 [cs].
[23] Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, and Lidong Zhou. LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding, January 2022. URL http://arxiv.org/abs/2012.14740. arXiv:2012.14740 [cs].

Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu和Furu Wei。LayoutLMv3:使用统一文本和图像遮罩进行文档AI的预训练,2022年7月。URL http://arxiv.org/abs/2204.08387。arXiv:2204.08387 [cs]。
[25] Lu Wang and Wanmin Liu. Online publishing via pdf2htmlEX, 2013. URL https://www.tug.org/TUGboat/tb34-3/ tb108wang.pdf.
[26] Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, and R. Manmatha. DocFormer: Endto-End Transformer for Document Understanding, September 2021. URL http://arxiv.org/abs/2106.11539. arXiv:2106.11539 [cs].

Bodhisattwa Prasad Majumder, Navneet Potti, Sandeep Tata, James Bradley Wendt, 郑琦, 和 Marc Najork. 从表单类文档中进行信息提取的表示学习。在第58届计算语言学协会年会论文集中,页码6495-6504,2020年7月在线举行。计算语言学协会。doi: 10.18653/v1/2020.acl-main.580。URL https://aclanthology.org/2020.acl-main.580。
[28] Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, and Seunghyun Park. OCR-free Document Understanding Transformer, October 2022. URL http://arxiv.org/abs/2111.15664. arXiv:2111.15664 [cs].

Brian Davis, Bryan Morse, Bryan Price, Chris Tensmeyer, Curtis Wigington和Vlad Morariu. 使用Dessurt进行端到端文档识别和理解,2022年6月。URL http://arxiv.org/abs/2203.16618. arXiv:2203.16618 [cs]。
[30] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, August 2021. URL http://arxiv.org/abs/ 2103.14030. arXiv:2103.14030 [cs].
[31] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, June 2021. URL http://arxiv.org/abs/ 2010.11929. arXiv:2010.11929 [cs].

Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov和Luke Zettlemoyer。BART: 自然语言生成、翻译和理解的去噪序列到序列预训练,2019年10月。URL http://arxiv.org/abs/1910.13461。arXiv:1910.13461 [cs, stat]。

Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez和Robert Stojnic。Galactica: 一个用于科学的大型语言模型,2022年11月。URL http://arxiv.org/abs/2211.09085。arXiv:2211.09085 [cs, stat]。
[34] Ilya Loshchilov and Frank Hutter. Decoupled Weight Decay Regularization, January 2019. URL http://arxiv.org/ abs/1711.05101. arXiv:1711.05101 [cs, math] version: 3.

P.Y. Simard, D. Steinkraus, 和 J.C. Platt. 卷积神经网络在视觉文档分析中的应用最佳实践。第七届国际文档分析与识别会议论文集,2003年。卷1,页码958-963,英国爱丁堡,2003年。IEEE计算机学会。ISBN 978-0-7695-1960-9。doi: 10.1109/ICDAR.2003.1227801。URL http://ieeexplore.ieee.org/document/1227801/。
[36] Alexander Buslaev, Vladimir I. Iglovikov, Eugene Khvedchenya, Alex Parinov, Mikhail Druzhinin, and Alexandr A. Kalinin. Albumentations: Fast and Flexible Image Augmentations. Information, 11(2):125, February 2020. ISSN 2078-2489. doi: 10.3390/info11020125. URL https://www.mdpi.com/2078-2489/11/2/125.

Ali Furkan Biten、Rubèn Tito、Lluis Gomez、Ernest Valveny和Dimosthenis Karatzas。OCR-IDL:工业文档库数据集的OCR注释,2022年2月。URL http://arxiv.org/abs/2202.12985。arXiv:2202.12985 [cs]。

Christopher Clark和Santosh Divvala. PDFFigures 2.0: 从研究论文中挖掘图表。在第16届ACM/IEEE-CS数字图书馆联合会议论文集中,第143-152页,美国新泽西州纽瓦克,2016年6月。ACM。ISBN 978-1-4503-4229-2。doi: 10.1145/2910896.2910904。URL https://dl.acm.org/doi/10. 1145/2910896.2910904。

V. Levenshtein. 能够纠正删除、插入和颠倒的二进制码。苏联物理学报告,1965年。URL https://www.semanticscholar.org/paper/Binary-codes-capable-of-correcting-deletions% 2C-and-Levenshtein/b2f8876482c97e804bb50a5e2433881ae31d0cdd。

Zellig S. Harris. 分布结构. WORD, 10(2-3):146-162, 1954. doi: 10.1080/00437956. 1954.11659520. URL https://doi.org/10.1080/00437956.1954.11659520. 出版商: Routledge _eprint: https://doi.org/10.1080/00437956.1954.11659520.
[41] Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, and Ari S. Morcos. Beyond neural scaling laws: beating power law scaling via data pruning, November 2022. URL http://arxiv.org/abs/2206.14486. arXiv:2206.14486 [cs, stat].

Kishore Papineni, Salim Roukos, Todd Ward和Wei-Jing Zhu. Bleu: 机器翻译自动评估方法。在第40届计算语言学年会论文集中,第311-318页,2002年7月,美国宾夕法尼亚州费城。计算语言学协会。doi: 10.3115/1073083.1073135。URL https://aclanthology.org/P02-1040。

Satanjeev Banerjee和Alon Lavie。METEOR:一种与人类判断相关性更高的自动机器翻译评估指标。在ACL关于机器翻译和/或摘要的内在和外在评估指标研讨会论文集中,第65-72页,2005年6月,密歇根州安娜堡。计算语言学协会。URL https://aclanthology.org/W05-0909。

Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes和Yejin Choi。神经文本退化的奇怪案例,2020年2月。URL http://arxiv.org/abs/1904.09751。arXiv:1904.09751 [cs]。

赫尔曼·W.(赫尔曼·威廉)马奇和亨利·C.(亨利·查尔斯)沃尔夫。《微积分》。纽约:麦格劳希尔,1917年。网址http://archive.org/details/calculus00marciala。

1970年1月《高温气体中的动力学和热力学》。网址https://ntrs.nasa.gov/citations/19700022795。NTRS报告/专利号:N70-32106-116 NTRS文档ID:19700022795 NTRS研究中心:格伦研究中心(GRC)。

Angela Fan、Mike Lewis和Yann Dauphin。分层神经故事生成。在第56届计算语言学年会论文集(第1卷:长篇论文)中,页码889-898,2018年7月,澳大利亚墨尔本。计算语言学协会。doi: 10.18653/v1/P18-1082。URL https://aclanthology.org/P18-1082。

Meet Shah, Xinlei Chen, Marcus Rohrbach, and Devi Parikh. Cycle-Consistency for Robust Visual Question Answering, February 2019. URL http://arxiv.org/abs/1902.05660. arXiv:1902.05660 [cs].

A Dataset

Name  页数
arXiv
PMC 536,319
IDL 446,777
Total
Table A.1:  数据集组成

最重要的数据来源是arXiv,占整个语料库的 。在arXiv上,大多数研究文档都附带作者提供的LaTeX源代码。LaTeX源代码提供了更多信息,并且未经处理,不像PMC的XML格式,其中方程式和表格经常被替换为图像。这使我们能够精确选择构建数据集所需的信息。

 B示例


在这个部分,我们使用了Nougat基础模型将一些页面从旧教科书转换过来。这些教科书来自互联网档案馆和古腾堡计划,属于公共领域。

这些扫描页面的性能明显比数字原始文档差。然而,该模型确实为每一页生成了合理的文本,错误很少。例如,请参见图B.1的第一行。在这里,模型将几乎无法辨认的指数 误认为 。在同一图的第二行,模型在预测另一个逗号而不是句点后陷入了重复循环。类似的问题也可以在图B.2中看到。

在图B.3中,我们展示了用移动设备扫描的印刷硕士论文页面和Nougat输出。该模型对手动扫描文档时出现的伪影具有鲁棒性。

在项目页面上浏览此部分的示例:https://facebookresearch.github.io/nougat。


图 B.1:一本旧的微积分教科书示例[45]。



图 B.2:选自1970年NASA会议的若干页面 [46]。



图 B.3:使用移动设备相机扫描的现代论文,获得作者许可。



图 B.4:带有表格的页面。上:Fan等人[47]第6页,下:Shah等人[48]第6页

  1. Correspondence to: lblecher@meta.com

    这篇论文报道了论文,但作者最近在GitHub页面https://github.com/allenai/s2orc上更新了数字