tm readPDF:文件错误(con,“r”):无法打开连接

时间:2013-08-06 12:37:20

标签: r tm pdf-scraping

我试过了example code recommended in the tm::readPDF documentation

library(tm)

if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) {
    uri <- system.file(file.path("doc", "tm.pdf"), package = "tm")
    pdf <- readPDF(PdftotextOptions = "-layout")(elem = list(uri = uri),
                                                 language = "en",
                                                 id = "id1")
    pdf[1:13]
}

但是我收到以下错误(在调用readPDF返回的函数后发生):

Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") :
  cannot open file 'C:\DOCUME~1\Tomas\LOCALS~1\Temp\RtmpU33iWo\pdfinfo31c2bd5762a': No such file or directory

请注意,我已将所有xpdf二进制文件安装到当前目录(但这由if条件处理)。

编辑:发现这是一个错误。什么是最简单的解决方法?

1 个答案:

答案 0 :(得分:3)

tm:::pdfinfo()中进行了一些调试并看到它失败了:

status <- system2("pdfinfo", shQuote(normalizePath(file)), 
        stdout = outfile)

此命令不会创建outfile。根据{{​​3}},这是一个错误!