实际上我正在为一家邮轮公司进行评估分析。我无法告诉你整个程序,因为它非常冗长,但至少是它的快照。我把所有的评论都分成了句子,然后从评论中提取了一些短语......例如。 '精彩的小屋','优质的服务'。现在,对于情感分析,我必须将该短语的所有名词映射到特定主题。现在,在该映射中,我需要名词的所有同义词以及与该单词相关的所有单词[正如我所说]。所以我的文本挖掘的最终结果将更有效。我想你对我正在做的事情一无所知。 我会重复我的问题..在excel我有一行单词或说名词..当我运行代码[R,VBA或任何]时,它应该给我所有与这些单词相关的单词.. [我用同义词提取同义词vba代码]。 希望你明白了吗?
答案 0 :(得分:4)
您可以使用包tm
及其词干功能。
如果您的文字文件是
text <- c("taste", "tastes", "tasting")
你可以创建一个语料库
corpus <- Corpus(VectorSource(text)
然后让词干功能将单词剥离到它们的根源。 (辅助函数避免了一些问题。)
stemDocumentfix <- function(x){ # put in business code
PlainTextDocument(paste(stemDocument(unlist(strsplit(as.character(x), " "))), collapse=' '))
}
corpus <- tm_map(corpus, stemDocumentfix)
inspect(corpus)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>
tast
[[2]]
<<PlainTextDocument (metadata: 7)>>
tast
[[3]]
<<PlainTextDocument (metadata: 7)>>
tast
您还可以查看qdap
包,它提供了一系列文本挖掘功能。