应用错误收集

作为研究数学家，我发现有时仅阅读数学论文的主要结果很有用。对于人类来说，这通常很容易实现：只需打开PDF文件或PS文件并在第一部分中查找定理。由于这样的过程相当简单，因此我认为可以实现自动化。

对于要解决此问题的程序，我们可以通过几个步骤让它这样做：

2和3很容易实现。另一方面，1可能会更难。在arXiv上的数学论文中，如果我们忽略了可以扫描图片的较旧的论文，则我们主要采用以下三种格式：Tex，PS和PDF。在Tex中，步骤1非常简单。但是对于PDF文件（包括Tex生成的PDF文件），我真的不知道。

第1步如何实现自动化？