所以为了一点周末的乐趣,我决定尝试将一个Microsoft Word .doc文件读入R.具体来说,我有一个.doc文件版本的PDF:
http://www.queensu.ca/rarc/services/ASDAssessmentTemplate/AAA/AQ_Scoring_Key.pdf
我想要做的是将表格提取为R中的数据框。现在我的初步调查让我相信" tm"包可能很方便,但我似乎无法让它工作。
像往常一样,我们将非常感激地提供任何帮助。
编辑:此问题询问在.doc文件中读取的具体步骤(即代码),因此不是已作为副本链接的问题的副本。
答案 0 :(得分:2)
以下是一个如何从doc / docx文件中提取简单表的示例:
require(XML)
download.file(url = "https://www.dropbox.com/s/36ydzz98beluhj8/test.docx?dl=1",
destfile = file.path(tempdir(), "test.docx"),
mode = "wb")
unzip(file.path(tempdir(), "test.docx"), exdir = tempdir())
doc <- xmlParse(file.path(tempdir(), "word", "document.xml") )
df <-
as.data.frame(
matrix(
xpathSApply(doc, "//w:tbl/w:tr/w:tc", xmlValue),
ncol = length(getNodeSet(doc, "//w:tbl/w:tr[1]/w:tc")),
nrow = length(getNodeSet(doc, "//w:tbl/w:tr")),
byrow = TRUE
)
)
df
# V1 V2 V3
# 1 2 3
# 2 4 5 6
# 3 7 9
根据您的需要调整它。