因此,我对R相当陌生,我正在学习如何从这个方便的网站https://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining-using-r/
挖掘文本我确实有自己的.doc,.docx和.xlsx文件文本集,我正在尝试对其进行挖掘。它们位于我的工作目录中的一个名为“文件”的文件夹中,但仅编写几行代码后,我就已经遇到错误。
到目前为止,我的代码是:
library(tm)
library(readtext)
data = readtext('files')
这时,等待25秒左右后,我得到了错误:
Error: System call to 'antiword' failed (1): The Big Block Depot is damaged
并且代码在那里停止运行。
我尝试过在线搜索解决方案,但这似乎是一个相当罕见的错误,因此我在https://github.com/ropensci/antiword/issues/1仅找到了一种可能的解决方案,但这对我不起作用。
此解决方案表明我的一个文件已损坏,并建议使用代码
fixInNamespace(antiword, pos="package:antiword")
将错误更改为警告,以不中断文件的读取。我尝试过,起初它引发了
错误Error in as.environment(pos):
no item called "package:antiword" on the search list
此后,我用library(antiword)
加载了反词库,并将stop(
更改为warning(
。但是,当我再次运行data = readtext('files')
行时,它立即引发了错误
Error in is_windows() : could not find function "is_windows"
我在这里不知所措!任何帮助,将不胜感激。在这种情况下,我应该使用其他软件包吗?
答案 0 :(得分:0)
我的代码遇到了同样的问题,我试图获取文档。 R 中的文件。我还使用了 readtext 库。帮助我的是将我试图从 doc 进入 R 的 Word 文档。到 docx。当我在运行后运行相同的代码时。