从PDF中抓取非结构化信息

时间:2013-06-14 06:03:01

标签: pdf pdf-scraping

我希望将this PDF中的信息写入以下格式:

enter image description here

我已经在PDF中圈出了信息来源的区域。

正如您所看到的,此PDF的格式非常非结构化,更糟糕的是,不同的PDF可以采用完全不同的布局,并且还会丢失信息。对于不熟悉挖掘的人来说,解析这个PDF已经很难了,因为并非所有信息都有明确的标记。

所以我的问题:是否有可能提出一种自动化方法来处理数千个像这样的PDF?如果是这样,我将如何开始接近这项任务?我可以在R和Python中很好地编程。

我意识到这是一项非常困难(如果不是不可能)的任务。感谢您的投入。

2 个答案:

答案 0 :(得分:1)

我认为这并不像人们想象的那么困难。我同意它不会100%准确,但你肯定只是考虑到潜在的不准确性。我不认为人类也是100%准确。

因此,我建议您使用PDF库提取文本,然后使用一组关键字匹配来尝试查找适当的信息。对于您提取的每个关键字,可能使用红色圆圈标记原始PDF,如示例PDF中所示。

然后在最终的输出存储中不仅包括数据,还包括PDF,以便人们可以查看数据并在适当的情况下覆盖值。您需要定期检查被覆盖的值并调整您的启发式以更好地应对。

您还需要一个测试平台,以便您可以存储数千个测试文档,并根据您现有的知识库验证任何代码更改。这让你有信心改变一切,并合理地确定你没有破坏任何关键的东西。

我的回答可能包含基于ABCpdf的概念。这就是我的工作。这就是我所知道的。 : - )

答案 1 :(得分:0)

我看不到您的PDF,链接可能会被破坏。但是,要从非结构化PDF中提取数据,请考虑使用pdftotext将pdf转换为纯文本:

pdftotext -layout {PDF-file} {text-file}

然后使用我在遇到类似问题时创建的小python package。我是一个业余的程序员,所以库可能有点'脏',我可能包含一些错误。您可以通过pip安装它:

sudo pip install MassTextExtractor

你可以在this回答中看到它的一个例子。