Question

我希望将this PDF中的信息写入以下格式：

enter image description here

我已经在PDF中圈出了信息来源的区域。

正如您所看到的，此PDF的格式非常非结构化，更糟糕的是，不同的PDF可以采用完全不同的布局，并且还会丢失信息。对于不熟悉挖掘的人来说，解析这个PDF已经很难了，因为并非所有信息都有明确的标记。

所以我的问题：是否有可能提出一种自动化方法来处理数千个像这样的PDF？如果是这样，我将如何开始接近这项任务？我可以在R和Python中很好地编程。

我意识到这是一项非常困难（如果不是不可能）的任务。感谢您的投入。

Answer 1

我认为这并不像人们想象的那么困难。我同意它不会100％准确，但你肯定只是考虑到潜在的不准确性。我不认为人类也是100％准确。

因此，我建议您使用PDF库提取文本，然后使用一组关键字匹配来尝试查找适当的信息。对于您提取的每个关键字，可能使用红色圆圈标记原始PDF，如示例PDF中所示。

然后在最终的输出存储中不仅包括数据，还包括PDF，以便人们可以查看数据并在适当的情况下覆盖值。您需要定期检查被覆盖的值并调整您的启发式以更好地应对。

您还需要一个测试平台，以便您可以存储数千个测试文档，并根据您现有的知识库验证任何代码更改。这让你有信心改变一切，并合理地确定你没有破坏任何关键的东西。

我的回答可能包含基于ABCpdf的概念。这就是我的工作。这就是我所知道的。： - ）

Answer 2

我看不到您的PDF，链接可能会被破坏。但是，要从非结构化PDF中提取数据，请考虑使用pdftotext将pdf转换为纯文本：

pdftotext -layout {PDF-file} {text-file}

然后使用我在遇到类似问题时创建的小python package。我是一个业余的程序员，所以库可能有点'脏'，我可能包含一些错误。您可以通过pip安装它：

sudo pip install MassTextExtractor

你可以在this回答中看到它的一个例子。