Question

我正在尝试使用Rstudios TM软件包打开PDF。以前，我可以运行该代码，但是在我重新安装Windows之后，它不再可用。但是，我找不到问题的根源。

由于问题是在我重新安装Windows之后发生的，因此问题应该出在rstudio是否找到xpdf程序。但是，我安装了xpdf-reader（如果正确的话就没有必要了），并将命令行工具（这里下载（http://www.xpdfreader.com/download.html）放在程序文件（x64）（64位xpdf-folder）文件夹中。）和我计算机上的程序文件（32位xpdf文件夹）。接下来，我应该将链接包括在环境变量的PATH中。（我只从64位开始，但是由于它不起作用，所以我还包括了其他文件夹。）

完成此操作后，我的代码应该能够加载PDF文件，具有漂亮的轮廓并使用// f分隔页面，如此处所述：https://medium.com/@CharlesBordet/how-to-extract-and-clean-data-from-pdf-files-in-r-da11964e252e。问题是，事实并非如此。尽管R-studio确实找到了pdfinfo和pdftotext：

file.exists(Sys.which(c("pdfinfo", "pdftotext")))
[1] TRUE TRUE

这使我不确定真正的问题是什么。因此，如果有人知道问题可能出在哪里，您会帮我解决问题！

我用来获取文本的代码如下：

read <- readPDF(engine=c("xpdf"),control = list(text = "-layout"))
document <- Corpus(URISource(   paste("1. To do list/", ALL_paper[T], sep="") ), readerControl = list(reader = readPDF))
doc <- content(document[[1]])

输出应整齐，但如下：

[9] "ci-Genistetea lobelii Klein 1972, characterized by many Corsican and Sardo-Corsican\r\ns such as Thymus herba-barona Loisel., Armeria multiceps Wallr., Genista salzmanni\r\n lioides (Gamisans) Gamisans & Jeanm., Hieracium soleirolianum Arv.-Touv. & Briq.,\r\nmacrocephala Moris, Poa balbisii Parl., Bunium corydalinum DC., Cerastium soleirolii\r\n gusticum corsicum Gay and Galium corsicum Spreng.\r\n al specimens examined. – Corsica: Serre di Scapamere, pres de Sartene (Corse),\r\n , Tillet (FI); in dumosis apricis

非常感谢！

Rstudio TM软件包中的readPDF函数问题

0 个答案: