Question

实际上我正在为一家邮轮公司进行评估分析。我无法告诉你整个程序，因为它非常冗长，但至少是它的快照。我把所有的评论都分成了句子，然后从评论中提取了一些短语......例如。 '精彩的小屋'，'优质的服务'。现在，对于情感分析，我必须将该短语的所有名词映射到特定主题。现在，在该映射中，我需要名词的所有同义词以及与该单词相关的所有单词[正如我所说]。所以我的文本挖掘的最终结果将更有效。我想你对我正在做的事情一无所知。我会重复我的问题..在excel我有一行单词或说名词..当我运行代码[R，VBA或任何]时，它应该给我所有与这些单词相关的单词.. [我用同义词提取同义词vba代码]。希望你明白了吗？

Answer 1

您可以使用包tm及其词干功能。

如果您的文字文件是

text <- c("taste", "tastes", "tasting")

你可以创建一个语料库

corpus <- Corpus(VectorSource(text)

然后让词干功能将单词剥离到它们的根源。（辅助函数避免了一些问题。）

stemDocumentfix <- function(x){ # put in business code
  PlainTextDocument(paste(stemDocument(unlist(strsplit(as.character(x), " "))), collapse=' '))
}

corpus <- tm_map(corpus, stemDocumentfix)

inspect(corpus)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
tast

[[2]]
<<PlainTextDocument (metadata: 7)>>
tast

[[3]]
<<PlainTextDocument (metadata: 7)>>
tast

您还可以查看qdap包，它提供了一系列文本挖掘功能。

创建一个单词的其他形式[名词，形容词，复数，动词......一切]

1 个答案: