在R中使用docx2txt

时间:2016-01-28 00:30:51

标签: r pdf docx tm corpus

我在R中使用了以下代码将PDF文件转换为文本文件,以便将来使用tm包。我正在使用下载的“pdftotext.exe”文件。

此代码正常运行,并为目录中的每个PDF生成“txt”。

myfiles <- list.files(path = dir04, pattern = "pdf",  full.names = TRUE)
lapply(myfiles, function(i) system(paste('"C:/xpdf/xpdfbin-win-3.04/bin64/pdftotext.exe"',paste0('"', i, '"')), wait = FALSE))

我试图弄清楚如何以类似的方式使用“docx2txt”。但是,文件格式不是.exe文件。我可以用同样的方式使用“docx2txt-1.4”或“docx2txt-1.4.tar”吗?以下代码为每个文件提供错误。

myfiles <- list.files(path = dir08, pattern = "docx",  full.names = TRUE)
lapply(myfiles, function(i) system(paste('"C:/docx2txt/docx2txt-1.4.gz"',paste0('"', i, '"')), wait = FALSE))

警告 运行命令'“C:/docx2txt/docx2txt-1.4.gz”“C:/ .... docx”'状态为127

how do I create a corpus of *.docx files with tm?没有足够的信息。

0 个答案:

没有答案