我在R中使用了以下代码将PDF文件转换为文本文件,以便将来使用tm包。我正在使用下载的“pdftotext.exe”文件。
此代码正常运行,并为目录中的每个PDF生成“txt”。
myfiles <- list.files(path = dir04, pattern = "pdf", full.names = TRUE)
lapply(myfiles, function(i) system(paste('"C:/xpdf/xpdfbin-win-3.04/bin64/pdftotext.exe"',paste0('"', i, '"')), wait = FALSE))
我试图弄清楚如何以类似的方式使用“docx2txt”。但是,文件格式不是.exe文件。我可以用同样的方式使用“docx2txt-1.4”或“docx2txt-1.4.tar”吗?以下代码为每个文件提供错误。
myfiles <- list.files(path = dir08, pattern = "docx", full.names = TRUE)
lapply(myfiles, function(i) system(paste('"C:/docx2txt/docx2txt-1.4.gz"',paste0('"', i, '"')), wait = FALSE))
警告 运行命令'“C:/docx2txt/docx2txt-1.4.gz”“C:/ .... docx”'状态为127