如何成功地将数学论文转换为纯文本

时间:2018-11-20 04:04:32

标签: pdf latex ps mathml

目标:

1。开发一种规范的方法来使用纯文本来唯一地代表一般的STEM论文,尤其是数学论文。

  1. 开发可将现有类型的STEM论文转换为100%准确率的标准格式的软件。请注意,我不能容忍任何不准确性,仅仅是因为作为一个人,我无法校正数百万篇论文来纠正转换中的不准确性,即使平均每篇论文的错误率为0.001。

问题:

  1. 我在Stackoverflow和其他地方看到的所有PDF文本,TeX文本等程序(例如PyMuPDF)由于无法处理数学符号而无法正常工作。

2.PDF确实很难处理。

3.TeX确实很难处理,因为STEM论文作者倾向于将大量宏添加到其源文件中,这会破坏LatexML和其他转换器。处理我自己的论文非常容易,因为我不使用很多新命令。但是,有许多作者的论文包含\def甚至无法处理的de-macro宏。为了使TeX正常工作,假设我什至可以在arXiv上获得大多数论文的源文件,我几乎必须实际编写自己的TeX引擎变体,以某种方式扩展所有必需的宏并生成纯文本文档。

还有其他解决方法吗?目前,我更喜欢的目标格式几乎就是用LaTeX编写的纯文本+数学符号,而没有格式化那些语义上重要的格式,例如\mathcal{A}A是独立的实体。假设我的笔记本电脑足够强大,我可以学习建立一个神经网络来训练它理解这些印刷的数学符号。实际上,只有不到200个符号可供网络学习,并且由于没有变化,它们的形状应该很容易识别。我可以这样做吗?

1 个答案:

答案 0 :(得分:0)

是的,您可以尝试一下。识别符号,然后将其转换为LaTeX格式(例如,为每个平方根写\ sqrt)。

您可以进一步参考本文的认可问题:

https://www.sciencedirect.com/science/article/abs/pii/003132039090113Y-

识别手写符号

Torfinn Taxt,JórunnB.Ólafsdóttir,MortenDæhlen∥

http://neuralnetworksanddeeplearning.com/chap1.html-在这里,您可以通过代码示例找到有关将神经网络实现为手写稿件的更多信息。