Question

挖掘文本

我确实有自己的.doc，.docx和.xlsx文件文本集，我正在尝试对其进行挖掘。它们位于我的工作目录中的一个名为“文件”的文件夹中，但仅编写几行代码后，我就已经遇到错误。

到目前为止，我的代码是：

library(tm)
library(readtext)

data = readtext('files')

这时，等待25秒左右后，我得到了错误：

Error: System call to 'antiword' failed (1): The Big Block Depot is damaged

并且代码在那里停止运行。

我尝试过在线搜索解决方案，但这似乎是一个相当罕见的错误，因此我在https://github.com/ropensci/antiword/issues/1仅找到了一种可能的解决方案，但这对我不起作用。

此解决方案表明我的一个文件已损坏，并建议使用代码

fixInNamespace(antiword, pos="package:antiword")

将错误更改为警告，以不中断文件的读取。我尝试过，起初它引发了

错误

Error in as.environment(pos):
    no item called "package:antiword" on the search list

此后，我用library(antiword)加载了反词库，并将stop(更改为warning(。但是，当我再次运行data = readtext('files')行时，它立即引发了错误

Error in is_windows() : could not find function "is_windows"

我在这里不知所措！任何帮助，将不胜感激。在这种情况下，我应该使用其他软件包吗？

Answer 1

我的代码遇到了同样的问题，我试图获取文档。 R 中的文件。我还使用了 readtext 库。帮助我的是将我试图从 doc 进入 R 的 Word 文档。到 docx。当我在运行后运行相同的代码时。