我刚刚在R中创建了一个术语文档矩阵,但现在我想重命名一些术语。
例如这里
vector <- "This is a test."
library(tm)
doc.vec <- VectorSource(vector)
doc.corpus <- Corpus(doc.vec)
TDM <- TermDocumentMatrix(doc.corpus)
检查TDM矩阵,它将输出
Docs
Terms 1
test. 1
this 1
现在我想重命名例如&#34; test。&#34;任何事情&#34;。原因是,当我挖掘文本时,会出现类似“大数据”的字样。这显然属于一个。所以在第一步中,我使用gsub来替换大数据&#34;与&#34; bigdata&#34;。但最后,我希望他们的输出是&#34;大数据&#34;。
提前帮忙。
答案 0 :(得分:1)
这是一种方法,不是回答你的第一个问题,而是解决你所说的你的需求:
vector <- "This is a test. I use big data. That's George Washington!"
library(tm)
library(qdap)
vector2 <- space_fill(vector, c("big data", "George Washington"))
doc.vec <- VectorSource(vector2)
doc.corpus <- Corpus(doc.vec)
TDM <- TermDocumentMatrix(doc.corpus)
rownames(TDM) <- gsub("~~", " ", rownames(TDM))
inspect(TDM)
Docs
Terms 1
big data. 1
george washington! 1
test. 1
that's 1
this 1
use 1