Question

有人可以帮我告诉我如何阅读pdf文件，其中包括一些表格。我想提取表中的数据，并安排到csv文件。

非常感谢

Answer 1

我知道这个问题比较老，但是我认为可重现的示例可能不会有损：

library(pdftools)
pdftools::pdf_text(pdf = "http://arxiv.org/pdf/1403.2805.pdf")

脱机版本：

pdf(file = "tmp.pdf")
plot(1, main = "mytext")
dev.off()
pdftools::pdf_text(pdf = "tmp.pdf")

我会不时地回到这个问题，尽管当前的答案很好，但我始终希望找到可重复的代码。所以我想我加了。如果不需要，可以将其删除。

Answer 2

弗吉尼亚大学的一步一步描述，您可以在Reading PDF files into R for text mining找到。我在下面提取的一些信息。

请按照上面链接中描述的安装说明进行操作。

完成后，您就可以使用readPDF来创建读取PDF文件的功能。您可以随意命名函数，例如Rpdf。

Rpdf <- readPDF(control = list(text = "-layout"))

readPDF函数有一个控制参数，我们用它来将选项传递给我们的PDF提取引擎。这必须是列表的形式，所以我们将选项包装在list函数中。 xpdf引擎有两个控制参数：info和text。 info将参数传递给pdfinfo.exe，文本将参数传递给pdftotext.exe。我们只将一个参数设置传递给pdftotext：“ - layout”。这告诉pdftptext.exe维护（尽可能最好）文本的原始物理布局。

使用Rpdf函数，我们可以继续阅读意见文本。我们想要做的是将PDF文件转换为文本并将它们存储在语料库中，语料库基本上是文本数据库。我们可以使用以下代码完成所有这些：

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))

如何在R中阅读pdf文件

2 个答案: