R反词错误中使用tm进行文本挖掘

时间:2018-07-17 06:19:27

标签: r error-handling text-mining tm read-text

因此,我对R相当陌生,我正在学习如何从这个方便的网站https://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining-using-r/

挖掘文本

我确实有自己的.doc,.docx和.xlsx文件文本集,我正在尝试对其进行挖掘。它们位于我的工作目录中的一个名为“文件”的文件夹中,但仅编写几行代码后,我就已经遇到错误。

到目前为止,我的代码是:

library(tm)
library(readtext)

data = readtext('files')

这时,等待25秒左右后,我得到了错误:

Error: System call to 'antiword' failed (1): The Big Block Depot is damaged

并且代码在那里停止运行。

我尝试过在线搜索解决方案,但这似乎是一个相当罕见的错误,因此我在https://github.com/ropensci/antiword/issues/1仅找到了一种可能的解决方案,但这对我不起作用。

此解决方案表明我的一个文件已损坏,并建议使用代码

fixInNamespace(antiword, pos="package:antiword")

将错误更改为警告,以不中断文件的读取。我尝试过,起初它引发了

错误
Error in as.environment(pos):
    no item called "package:antiword" on the search list

此后,我用library(antiword)加载了反词库,并将stop(更改为warning(。但是,当我再次运行data = readtext('files')行时,它立即引发了错误

Error in is_windows() : could not find function "is_windows"

我在这里不知所措!任何帮助,将不胜感激。在这种情况下,我应该使用其他软件包吗?

1 个答案:

答案 0 :(得分:0)

我的代码遇到了同样的问题,我试图获取文档。 R 中的文件。我还使用了 readtext 库。帮助我的是将我试图从 doc 进入 R 的 Word 文档。到 docx。当我在运行后运行相同的代码时。