Rstudio TM软件包中的readPDF函数问题

时间:2019-04-21 17:27:14

标签: r pdf rstudio tm

我正在尝试使用Rstudios TM软件包打开PDF。以前,我可以运行该代码,但是在我重新安装Windows之后,它不再可用。但是,我找不到问题的根源。

由于问题是在我重新安装Windows之后发生的,因此问题应该出在rstudio是否找到xpdf程序。但是,我安装了xpdf-reader(如果正确的话就没有必要了),并将命令行工具(这里下载(http://www.xpdfreader.com/download.html)放在程序文件(x64)(64位xpdf-folder)文件夹中。 )和我计算机上的程序文件(32位xpdf文件夹)。接下来,我应该将链接包括在环境变量的PATH中。 (我只从64位开始,但是由于它不起作用,所以我还包括了其他文件夹。)

完成此操作后,我的代码应该能够加载PDF文件,具有漂亮的轮廓并使用// f分隔页面,如此处所述:https://medium.com/@CharlesBordet/how-to-extract-and-clean-data-from-pdf-files-in-r-da11964e252e。问题是,事实并非如此。尽管R-studio确实找到了pdfinfo和pdftotext:

file.exists(Sys.which(c("pdfinfo", "pdftotext")))
[1] TRUE TRUE

这使我不确定真正的问题是什么。因此,如果有人知道问题可能出在哪里,您会帮我解决问题!

我用来获取文本的代码如下:

read <- readPDF(engine=c("xpdf"),control = list(text = "-layout"))
document <- Corpus(URISource(   paste("1. To do list/", ALL_paper[T], sep="") ), readerControl = list(reader = readPDF))
doc <- content(document[[1]])

输出应整齐,但如下:

[9] "ci-Genistetea lobelii Klein 1972, characterized by many Corsican and Sardo-Corsican\r\ns such as Thymus herba-barona Loisel., Armeria multiceps Wallr., Genista salzmanni\r\n lioides (Gamisans) Gamisans & Jeanm., Hieracium soleirolianum Arv.-Touv. & Briq.,\r\nmacrocephala Moris, Poa balbisii Parl., Bunium corydalinum DC., Cerastium soleirolii\r\n gusticum corsicum Gay and Galium corsicum Spreng.\r\n al specimens examined. – Corsica: Serre di Scapamere, pres de Sartene (Corse),\r\n , Tillet (FI); in dumosis apricis

非常感谢!

0 个答案:

没有答案