如何在R中阅读pdf文件

时间:2016-07-26 14:26:39

标签: r pdf

有人可以帮我告诉我如何阅读pdf文件,其中包括一些表格。我想提取表中的数据,并安排到csv文件。

非常感谢

2 个答案:

答案 0 :(得分:4)

我知道这个问题比较老,但是我认为可重现的示例可能不会有损:

library(pdftools)
pdftools::pdf_text(pdf = "http://arxiv.org/pdf/1403.2805.pdf")

脱机版本:

pdf(file = "tmp.pdf")
plot(1, main = "mytext")
dev.off()
pdftools::pdf_text(pdf = "tmp.pdf")

我会不时地回到这个问题,尽管当前的答案很好,但我始终希望找到可重复的代码。所以我想我加了。如果不需要,可以将其删除。

答案 1 :(得分:2)

弗吉尼亚大学的一步一步描述,您可以在Reading PDF files into R for text mining找到。我在下面提取的一些信息。

请按照上面链接中描述的安装说明进行操作。

完成后,您就可以使用readPDF来创建读取PDF文件的功能。您可以随意命名函数,例如Rpdf。

Rpdf <- readPDF(control = list(text = "-layout"))

readPDF函数有一个控制参数,我们用它来将选项传递给我们的PDF提取引擎。这必须是列表的形式,所以我们将选项包装在list函数中。 xpdf引擎有两个控制参数:info和text。 info将参数传递给pdfinfo.exe,文本将参数传递给pdftotext.exe。我们只将一个参数设置传递给pdftotext:“ - layout”。这告诉pdftptext.exe维护(尽可能最好)文本的原始物理布局。

使用Rpdf函数,我们可以继续阅读意见文本。我们想要做的是将PDF文件转换为文本并将它们存储在语料库中,语料库基本上是文本数据库。我们可以使用以下代码完成所有这些:

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))