如何从tex生成和ps生成的PDF获取信息?

时间:2018-10-08 03:29:35

标签: pdf

作为研究数学家,我发现有时仅阅读数学论文的主要结果很有用。对于人类来说,这通常很容易实现:只需打开PDF文件或PS文件并在第一部分中查找定理。由于这样的过程相当简单,因此我认为可以实现自动化。

对于要解决此问题的程序,我们可以通过几个步骤让它这样做:

  1. 从第一部分获取文本和样式
  2. 使用带有初始子字符串“ Theorem”的字符串查找粗体段落
  3. 收集此类段落

2和3很容易实现。另一方面,1可能会更难。在arXiv上的数学论文中,如果我们忽略了可以扫描图片的较旧的论文,则我们主要采用以下三种格式:Tex,PS和PDF。在Tex中,步骤1非常简单。但是对于PDF文件(包括Tex生成的PDF文件),我真的不知道。

第1步如何实现自动化?

0 个答案:

没有答案