使用R进行PDF抓取

时间:2011-10-27 15:54:27

标签: python r pdf screen-scraping

我一直在成功使用XML包来提取HTML表,但是想扩展到PDF。从以前的问题来看,似乎没有一个简单的R解决方案但是想知道是否有最近的发展

如果失败了,那么在Python(我是一个完整的新手)中有一些方法可以获得 并操纵pdfs,以便我可以使用R XML包

完成这项工作

4 个答案:

答案 0 :(得分:10)

从PDF中提取文本很难,而且几乎总是需要非常小心。

我从pdftotext等命令行工具开始,看看它们吐出的是什么。问题是PDF可以按任何顺序存储文本,可以使用笨拙的字体编码,并且可以执行诸如使用连字字符(在正确排版中看到的联合'ff'和'ij')来抛弃你。

pdftotext可以安装在任何Linux系统上......

答案 1 :(得分:5)

您可能想查看text miningtm。我记得他们实现了所谓的读者,还有一个用于PDF。

答案 2 :(得分:4)

AFAIK没有一种简单的方法可以将PDF表格变成对数据分析有用的东西。您可以使用Data Science Toolkit的文件到文本实用程序(通过RDSTK包的R接口),然后解析生成的文本。请注意:解析通常非常重要。


编辑:有关将PDF转换为XML on discerning.com的有用讨论。简短的回答是,您可能需要购买商业工具。

答案 3 :(得分:1)

可以从PDF文档中提取表的tabula应用程序的核心是一个简单的命令行Java应用程序tabula-extractor

此Java应用程序已由tabulizer包裹在R中。将路径传递给PDF文件,它将尝试为您提取数据表并将其作为数据返回。

有关示例,请参阅When Documents Become Databases – Tabulizer R Wrapper for Tabula PDF Table Extractor