Question

我的tm r库存在（小）问题。说我有一个语料库：

# boilerplate
bcorp <- c("one","two","three","four","five")
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)

结果：

[1] "1" "2" "3" "4" "5"

这很有效。但是当我尝试使用转换tm_map（）时：

# this does not work
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
tdm <- TermDocumentMatrix(myCorpus)

给出

Error: inherits(doc, "TextDocument") is not TRUE

本案例中提出的解决方案是转换为PlainTextDocument。

# this works but erase the metadata
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)

结果：

[1] "character(0)" "character(0)" "character(0)" "character(0)" "character(0)"

现在它可以工作，但删除所有元数据（在本例中为doc名称）。有一种方法来保存元数据，或者保存并恢复它们吗？

Answer 1

我找到了。

该行：

myCorpus <- tm_map(myCorpus, PlainTextDocument)

解决了问题，但删除了元数据。

我发现this answer解释了使用tm_map（）的更好方法。我只需要替换：

myCorpus <- tm_map(myCorpus, tolower)

使用：

myCorpus <- tm_map(myCorpus, content_transformer(tolower))

一切正常！

tm在应用tm_map时丢失元数据

1 个答案: