我正在尝试将一堆MS Word文件(.doc和.docx)读入R. 我必须在标题中阅读内容。
我可以使用how do I create a corpus of *.docx files with tm?中@BondedDust给出的方法为.docx文件执行此操作。 标题保存在一个单独的XML中,我可以阅读。
但是,我无法为.doc文件执行此操作。我尝试将文件保存为html,txt等,所有这些都不会捕获标题 我也尝试使用tm包中的readDOC(),但是使用它的文档很少。
有人可以帮忙吗?
我在Windows 7上运行R 3.0.3。
答案 0 :(得分:0)
要使用readDOC()
,您需要安装antiword。
readDOC()
函数需要list
作为第一个参数以及指定的语言(ID是可选的)。这是一个使用匆忙制作的.doc
文件运行的示例:
wordReader <- readDOC()
word_info <- wordReader(list(uri="test1.doc"), language="en")
word_info$meta
## Metadata:
## author : character(0)
## datetimestamp: 2014-10-01 11:07:52
## description : character(0)
## heading : character(0)
## id : test1.doc
## language : en
## origin : character(0)
word_info$content
## [1] "" "Test" ""