目标:
1。开发一种规范的方法来使用纯文本来唯一地代表一般的STEM论文,尤其是数学论文。
问题:
2.PDF确实很难处理。
3.TeX确实很难处理,因为STEM论文作者倾向于将大量宏添加到其源文件中,这会破坏LatexML
和其他转换器。处理我自己的论文非常容易,因为我不使用很多新命令。但是,有许多作者的论文包含\def
甚至无法处理的de-macro
宏。为了使TeX正常工作,假设我什至可以在arXiv上获得大多数论文的源文件,我几乎必须实际编写自己的TeX引擎变体,以某种方式扩展所有必需的宏并生成纯文本文档。
还有其他解决方法吗?目前,我更喜欢的目标格式几乎就是用LaTeX编写的纯文本+数学符号,而没有格式化那些语义上重要的格式,例如\mathcal{A}
和A
是独立的实体。假设我的笔记本电脑足够强大,我可以学习建立一个神经网络来训练它理解这些印刷的数学符号。实际上,只有不到200个符号可供网络学习,并且由于没有变化,它们的形状应该很容易识别。我可以这样做吗?
答案 0 :(得分:0)
是的,您可以尝试一下。识别符号,然后将其转换为LaTeX格式(例如,为每个平方根写\ sqrt)。
您可以进一步参考本文的认可问题:
https://www.sciencedirect.com/science/article/abs/pii/003132039090113Y-
识别手写符号
Torfinn Taxt,JórunnB.Ólafsdóttir,MortenDæhlen∥
http://neuralnetworksanddeeplearning.com/chap1.html-在这里,您可以通过代码示例找到有关将神经网络实现为手写稿件的更多信息。