Question

我正在尝试将一堆MS Word文件（.doc和.docx）读入R. 我必须在标题中阅读内容。

我可以使用how do I create a corpus of *.docx files with tm?中@BondedDust给出的方法为.docx文件执行此操作。标题保存在一个单独的XML中，我可以阅读。

但是，我无法为.doc文件执行此操作。我尝试将文件保存为html，txt等，所有这些都不会捕获标题我也尝试使用tm包中的readDOC（），但是使用它的文档很少。

有人可以帮忙吗？

我在Windows 7上运行R 3.0.3。

Answer 1

要使用readDOC()，您需要安装antiword。

readDOC()函数需要list作为第一个参数以及指定的语言（ID是可选的）。这是一个使用匆忙制作的.doc文件运行的示例：

wordReader <- readDOC()
word_info <- wordReader(list(uri="test1.doc"), language="en")

word_info$meta

## Metadata:
##   author       : character(0)
##   datetimestamp: 2014-10-01 11:07:52
##   description  : character(0)
##   heading      : character(0)
##   id           : test1.doc
##   language     : en
##   origin       : character(0)

word_info$content

## [1] ""     "Test" ""

将MS字头读入R中

1 个答案: