pdf - 如何成功地将数学论文转换为纯文本

目标：

1。开发一种规范的方法来使用纯文本来唯一地代表一般的STEM论文，尤其是数学论文。

开发可将现有类型的STEM论文转换为100％准确率的标准格式的软件。请注意，我不能容忍任何不准确性，仅仅是因为作为一个人，我无法校正数百万篇论文来纠正转换中的不准确性，即使平均每篇论文的错误率为0.001。

问题：

我在Stackoverflow和其他地方看到的所有PDF文本，TeX文本等程序（例如PyMuPDF）由于无法处理数学符号而无法正常工作。

2.PDF确实很难处理。

3.TeX确实很难处理，因为STEM论文作者倾向于将大量宏添加到其源文件中，这会破坏LatexML和其他转换器。处理我自己的论文非常容易，因为我不使用很多新命令。但是，有许多作者的论文包含\def甚至无法处理的de-macro宏。为了使TeX正常工作，假设我什至可以在arXiv上获得大多数论文的源文件，我几乎必须实际编写自己的TeX引擎变体，以某种方式扩展所有必需的宏并生成纯文本文档。

还有其他解决方法吗？目前，我更喜欢的目标格式几乎就是用LaTeX编写的纯文本+数学符号，而没有格式化那些语义上重要的格式，例如\mathcal{A}和A是独立的实体。假设我的笔记本电脑足够强大，我可以学习建立一个神经网络来训练它理解这些印刷的数学符号。实际上，只有不到200个符号可供网络学习，并且由于没有变化，它们的形状应该很容易识别。我可以这样做吗？

如何成功地将数学论文转换为纯文本

1 个答案: