在Windows上安装pdftotext(用于R,' tm'包)

时间:2016-03-23 11:49:15

标签: r tm pdftotext xpdf

我无法使用R,' tm'包,读入.pdf文件。 具体来说,我尝试运行以下代码:

library(tm)
filename = "myfile.pdf"

tmp1 <- readPDF(PdftotextOptions="-layout")
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
doc[1:15]

...这给了我错误:

Error in readPDF(PdftotextOptions = "-layout") : 
  unused argument (PdftotextOptions = "-layout")

我认为这是因为pdftotext程序(xpdf的一部分,http://www.foolabs.com/xpdf/download.html)尚未在我的机器上正确安装,因此R无法访问它。

正确安装xpdf / pdftotext的步骤是什么,以便可以执行上述R代码?(我知道已经发布的类似问题,但是他们没有解决同样的问题问题)

2 个答案:

答案 0 :(得分:1)

PdftotextOptions不是readPDF的参数。 readPDF有一个control参数,需要一个列表。所以正确使用将是:

if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) { 
  tmp1 <- readPDF(control = list(text = "-layout"))
  doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
}

答案 1 :(得分:0)

设置

setwd('C:/xpdf/bin64')                 

它对我有用。