我已经在mac中下载了PDFtoText,并编写了以下代码,将pdf文件转换为文本:
pdf_to_load =("~/my_directory/my.pdf")
system(paste('pdftotext', pdf_to_load))
代码运行良好但我无法在源目录中看到my.txt,也没有将其保存在文件夹中的任何位置。哪里出错了?
我的一位导师能够在他的计算机上运行相同的代码,他能够看到转换后的.txt文件。
请指导。
答案 0 :(得分:5)
如果您的计算机上找不到默认的PDF提取引擎,则会得到错误的结果,请参阅?tm::readPDF
。这些引擎不属于R或tm
包的一部分,它取决于您的计算机是否已安装必要的程序。
最简单的解决方案是安装程序pdftotext
和pdfinfo
(您需要两者),您可以将其作为预编译的二进制文件here获取。
正确安装这些程序后,您应该能够使用readPDF()
包的tm
功能在没有系统调用的情况下提取PDF文件的文本
library(tm)
my_pdf_txt <- readPDF(control=list(text="-layout"))(elem=list(uri="~/my_directory/my.pdf"), language="en")