PDF到Mac中的R中的文本

时间:2015-09-09 06:52:50

标签: r tm pdftotext

我已经在mac中下载了PDFtoText,并编写了以下代码,将pdf文件转换为文本:

pdf_to_load =("~/my_directory/my.pdf")
system(paste('pdftotext', pdf_to_load))

代码运行良好但我无法在源目录中看到my.txt,也没有将其保存在文件夹中的任何位置。哪里出错了?

我的一位导师能够在他的计算机上运行相同的代码,他能够看到转换后的.txt文件。

请指导。

1 个答案:

答案 0 :(得分:5)

如果您的计算机上找不到默认的PDF提取引擎,则会得到错误的结果,请参阅?tm::readPDF。这些引擎不属于R或tm包的一部分,它取决于您的计算机是否已安装必要的程序。

最简单的解决方案是安装程序pdftotextpdfinfo(您需要两者),您可以将其作为预编译的二进制文件here获取。

正确安装这些程序后,您应该能够使用readPDF()包的tm功能在没有系统调用的情况下提取PDF文件的文本

library(tm)
my_pdf_txt <- readPDF(control=list(text="-layout"))(elem=list(uri="~/my_directory/my.pdf"), language="en")