创建一个单词的其他形式[名词,形容词,复数,动词......一切]

时间:2015-02-11 11:15:51

标签: r excel vba text-mining tm

实际上我正在为一家邮轮公司进行评估分析。我无法告诉你整个程序,因为它非常冗长,但至少是它的快照。我把所有的评论都分成了句子,然后从评论中提取了一些短语......例如。 '精彩的小屋','优质的服务'。现在,对于情感分析,我必须将该短语的所有名词映射到特定主题。现在,在该映射中,我需要名词的所有同义词以及与该单词相关的所有单词[正如我所说]。所以我的文本挖掘的最终结果将更有效。我想你对我正在做的事情一无所知。  我会重复我的问题..在excel我有一行单词或说名词..当我运行代码[R,VBA或任何]时,它应该给我所有与这些单词相关的单词.. [我用同义词提取同义词vba代码]。  希望你明白了吗?

1 个答案:

答案 0 :(得分:4)

您可以使用包tm及其词干功能。

如果您的文字文件是

text <- c("taste", "tastes", "tasting")

你可以创建一个语料库

corpus <- Corpus(VectorSource(text)

然后让词干功能将单词剥离到它们的根源。 (辅助函数避免了一些问题。)

stemDocumentfix <- function(x){ # put in business code
  PlainTextDocument(paste(stemDocument(unlist(strsplit(as.character(x), " "))), collapse=' '))
}

corpus <- tm_map(corpus, stemDocumentfix)

inspect(corpus)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
tast

[[2]]
<<PlainTextDocument (metadata: 7)>>
tast

[[3]]
<<PlainTextDocument (metadata: 7)>>
tast

您还可以查看qdap包,它提供了一系列文本挖掘功能。