我的tm r库存在(小)问题。 说我有一个语料库:
# boilerplate
bcorp <- c("one","two","three","four","five")
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)
结果:
[1] "1" "2" "3" "4" "5"
这很有效。但是当我尝试使用转换tm_map()时:
# this does not work
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
tdm <- TermDocumentMatrix(myCorpus)
给出
Error: inherits(doc, "TextDocument") is not TRUE
本案例中提出的解决方案是转换为PlainTextDocument。
# this works but erase the metadata
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)
结果:
[1] "character(0)" "character(0)" "character(0)" "character(0)" "character(0)"
现在它可以工作,但删除所有元数据(在本例中为doc名称)。有一种方法来保存元数据,或者保存并恢复它们吗?
答案 0 :(得分:8)
我找到了。
该行:
myCorpus <- tm_map(myCorpus, PlainTextDocument)
解决了问题,但删除了元数据。
我发现this answer解释了使用tm_map()的更好方法。我只需要替换:
myCorpus <- tm_map(myCorpus, tolower)
使用:
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
一切正常!