我希望将this PDF中的信息写入以下格式:
我已经在PDF中圈出了信息来源的区域。
正如您所看到的,此PDF的格式非常非结构化,更糟糕的是,不同的PDF可以采用完全不同的布局,并且还会丢失信息。对于不熟悉挖掘的人来说,解析这个PDF已经很难了,因为并非所有信息都有明确的标记。
所以我的问题:是否有可能提出一种自动化方法来处理数千个像这样的PDF?如果是这样,我将如何开始接近这项任务?我可以在R和Python中很好地编程。
我意识到这是一项非常困难(如果不是不可能)的任务。感谢您的投入。
答案 0 :(得分:1)
我认为这并不像人们想象的那么困难。我同意它不会100%准确,但你肯定只是考虑到潜在的不准确性。我不认为人类也是100%准确。
因此,我建议您使用PDF库提取文本,然后使用一组关键字匹配来尝试查找适当的信息。对于您提取的每个关键字,可能使用红色圆圈标记原始PDF,如示例PDF中所示。
然后在最终的输出存储中不仅包括数据,还包括PDF,以便人们可以查看数据并在适当的情况下覆盖值。您需要定期检查被覆盖的值并调整您的启发式以更好地应对。
您还需要一个测试平台,以便您可以存储数千个测试文档,并根据您现有的知识库验证任何代码更改。这让你有信心改变一切,并合理地确定你没有破坏任何关键的东西。
我的回答可能包含基于ABCpdf的概念。这就是我的工作。这就是我所知道的。 : - )
答案 1 :(得分:0)
我看不到您的PDF,链接可能会被破坏。但是,要从非结构化PDF中提取数据,请考虑使用pdftotext将pdf转换为纯文本:
pdftotext -layout {PDF-file} {text-file}
然后使用我在遇到类似问题时创建的小python package。我是一个业余的程序员,所以库可能有点'脏',我可能包含一些错误。您可以通过pip安装它:
sudo pip install MassTextExtractor
你可以在this回答中看到它的一个例子。