应用错误收集

时间：2011-10-27 15:54:27

标签： python r pdf screen-scraping

我一直在成功使用XML包来提取HTML表，但是想扩展到PDF。从以前的问题来看，似乎没有一个简单的R解决方案但是想知道是否有最近的发展

如果失败了，那么在Python（我是一个完整的新手）中有一些方法可以获得并操纵pdfs，以便我可以使用R XML包

完成这项工作

答案 0 :(得分：10)

从PDF中提取文本很难，而且几乎总是需要非常小心。

我从pdftotext等命令行工具开始，看看它们吐出的是什么。问题是PDF可以按任何顺序存储文本，可以使用笨拙的字体编码，并且可以执行诸如使用连字字符（在正确排版中看到的联合'ff'和'ij'）来抛弃你。

pdftotext可以安装在任何Linux系统上......

答案 1 :(得分：5)

您可能想查看text mining包tm。我记得他们实现了所谓的读者，还有一个用于PDF。

答案 2 :(得分：4)

AFAIK没有一种简单的方法可以将PDF表格变成对数据分析有用的东西。您可以使用Data Science Toolkit的文件到文本实用程序（通过RDSTK包的R接口），然后解析生成的文本。请注意：解析通常非常重要。

编辑：有关将PDF转换为XML on discerning.com的有用讨论。简短的回答是，您可能需要购买商业工具。

答案 3 :(得分：1)

可以从PDF文档中提取表的tabula应用程序的核心是一个简单的命令行Java应用程序tabula-extractor。

此Java应用程序已由tabulizer包裹在R中。将路径传递给PDF文件，它将尝试为您提取数据表并将其作为数据返回。