有人可以帮我告诉我如何阅读pdf文件,其中包括一些表格。我想提取表中的数据,并安排到csv文件。
非常感谢
答案 0 :(得分:4)
我知道这个问题比较老,但是我认为可重现的示例可能不会有损:
library(pdftools)
pdftools::pdf_text(pdf = "http://arxiv.org/pdf/1403.2805.pdf")
脱机版本:
pdf(file = "tmp.pdf")
plot(1, main = "mytext")
dev.off()
pdftools::pdf_text(pdf = "tmp.pdf")
我会不时地回到这个问题,尽管当前的答案很好,但我始终希望找到可重复的代码。所以我想我加了。如果不需要,可以将其删除。
答案 1 :(得分:2)
弗吉尼亚大学的一步一步描述,您可以在Reading PDF files into R for text mining找到。我在下面提取的一些信息。
请按照上面链接中描述的安装说明进行操作。
完成后,您就可以使用readPDF来创建读取PDF文件的功能。您可以随意命名函数,例如Rpdf。
Rpdf <- readPDF(control = list(text = "-layout"))
readPDF函数有一个控制参数,我们用它来将选项传递给我们的PDF提取引擎。这必须是列表的形式,所以我们将选项包装在list函数中。 xpdf引擎有两个控制参数:info和text。 info将参数传递给pdfinfo.exe,文本将参数传递给pdftotext.exe。我们只将一个参数设置传递给pdftotext:“ - layout”。这告诉pdftptext.exe维护(尽可能最好)文本的原始物理布局。
使用Rpdf函数,我们可以继续阅读意见文本。我们想要做的是将PDF文件转换为文本并将它们存储在语料库中,语料库基本上是文本数据库。我们可以使用以下代码完成所有这些:
opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))