将MS字头读入R中

时间:2014-10-01 10:22:49

标签: r ms-word

我正在尝试将一堆MS Word文件(.doc和.docx)读入R. 我必须在标题中阅读内容。

我可以使用how do I create a corpus of *.docx files with tm?中@BondedDust给出的方法为.docx文件执行此操作。 标题保存在一个单独的XML中,我可以阅读。

但是,我无法为.doc文件执行此操作。我尝试将文件保存为html,txt等,所有这些都不会捕获标题 我也尝试使用tm包中的readDOC(),但是使用它的文档很少。

有人可以帮忙吗?

我在Windows 7上运行R 3.0.3。

1 个答案:

答案 0 :(得分:0)

要使用readDOC(),您需要安装antiword

readDOC()函数需要list作为第一个参数以及指定的语言(ID是可选的)。这是一个使用匆忙制作的.doc文件运行的示例:

wordReader <- readDOC()
word_info <- wordReader(list(uri="test1.doc"), language="en")

word_info$meta

## Metadata:
##   author       : character(0)
##   datetimestamp: 2014-10-01 11:07:52
##   description  : character(0)
##   heading      : character(0)
##   id           : test1.doc
##   language     : en
##   origin       : character(0)

word_info$content

## [1] ""     "Test" ""