我一直在成功使用XML包来提取HTML表,但是想扩展到PDF。从以前的问题来看,似乎没有一个简单的R解决方案但是想知道是否有最近的发展
如果失败了,那么在Python(我是一个完整的新手)中有一些方法可以获得 并操纵pdfs,以便我可以使用R XML包
完成这项工作答案 0 :(得分:10)
从PDF中提取文本很难,而且几乎总是需要非常小心。
我从pdftotext等命令行工具开始,看看它们吐出的是什么。问题是PDF可以按任何顺序存储文本,可以使用笨拙的字体编码,并且可以执行诸如使用连字字符(在正确排版中看到的联合'ff'和'ij')来抛弃你。
pdftotext可以安装在任何Linux系统上......
答案 1 :(得分:5)
您可能想查看text mining包tm
。我记得他们实现了所谓的读者,还有一个用于PDF。
答案 2 :(得分:4)
AFAIK没有一种简单的方法可以将PDF表格变成对数据分析有用的东西。您可以使用Data Science Toolkit的文件到文本实用程序(通过RDSTK包的R接口),然后解析生成的文本。请注意:解析通常非常重要。
编辑:有关将PDF转换为XML on discerning.com的有用讨论。简短的回答是,您可能需要购买商业工具。
答案 3 :(得分:1)
可以从PDF文档中提取表的tabula应用程序的核心是一个简单的命令行Java应用程序tabula-extractor。
此Java应用程序已由tabulizer包裹在R中。将路径传递给PDF文件,它将尝试为您提取数据表并将其作为数据返回。
有关示例,请参阅When Documents Become Databases – Tabulizer R Wrapper for Tabula PDF Table Extractor。