重命名术语文档矩阵中的术语

时间:2014-08-22 13:10:03

标签: r text tm mining

我刚刚在R中创建了一个术语文档矩阵,但现在我想重命名一些术语。

例如这里

vector <- "This is a test."

library(tm)

doc.vec <- VectorSource(vector)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)

检查TDM矩阵,它将输出

    Docs
    Terms   1
    test. 1
    this  1

现在我想重命名例如&#34; test。&#34;任何事情&#34;。原因是,当我挖掘文本时,会出现类似“大数据”的字样。这显然属于一个。所以在第一步中,我使用gsub来替换大数据&#34;与&#34; bigdata&#34;。但最后,我希望他们的输出是&#34;大数据&#34;。

提前帮忙。

1 个答案:

答案 0 :(得分:1)

这是一种方法,不是回答你的第一个问题,而是解决你所说的你的需求:

vector <- "This is a test.  I use big data.  That's George Washington!"

library(tm)
library(qdap)

vector2 <- space_fill(vector, c("big data", "George Washington"))

doc.vec <- VectorSource(vector2)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)
rownames(TDM) <- gsub("~~", " ", rownames(TDM))
inspect(TDM)

                    Docs
Terms                1
  big data.          1
  george washington! 1
  test.              1
  that's             1
  this               1
  use                1