如何将.doc文件读入R中

时间:2015-02-21 17:26:01

标签: r converter doc tm

所以为了一点周末的乐趣,我决定尝试将一个Microsoft Word .doc文件读入R.具体来说,我有一个.doc文件版本的PDF:

http://www.queensu.ca/rarc/services/ASDAssessmentTemplate/AAA/AQ_Scoring_Key.pdf

我想要做的是将表格提取为R中的数据框。现在我的初步调查让我相信" tm"包可能很方便,但我似乎无法让它工作。

像往常一样,我们将非常感激地提供任何帮助。

编辑:此问题询问在.doc文件中读取的具体步骤(即代码),因此不是已作为副本链接的问题的副本。

1 个答案:

答案 0 :(得分:2)

以下是一个如何从doc / docx文件中提取简单表的示例:

require(XML)
download.file(url = "https://www.dropbox.com/s/36ydzz98beluhj8/test.docx?dl=1", 
              destfile = file.path(tempdir(), "test.docx"),
              mode = "wb")
unzip(file.path(tempdir(), "test.docx"), exdir = tempdir()) 
doc <- xmlParse(file.path(tempdir(), "word", "document.xml") )
df <- 
  as.data.frame(
    matrix(
      xpathSApply(doc, "//w:tbl/w:tr/w:tc", xmlValue), 
      ncol = length(getNodeSet(doc, "//w:tbl/w:tr[1]/w:tc")), 
      nrow =  length(getNodeSet(doc, "//w:tbl/w:tr")),
      byrow = TRUE
    )
)

enter image description here

df
#   V1 V2 V3
# 1     2  3
# 2  4  5  6
# 3  7     9

根据您的需要调整它。