情感分析和原始文本的有效聚类,具有最小的上下文

时间:2015-08-04 00:48:47

标签: machine-learning apache-spark nlp

假设我有一个电子邮件链,其中有2人讨论问题及其解决方案。我也有一些背景。例如,电子邮件链是关于使用iPhone 6和iOS 7的一些问题。就是这样。从这些电子邮件的内容/文本中,我需要弄清楚究竟是什么问题以及提出的解决方案究竟是什么。

现在,如果我们将这个问题移植到大数据,即数百万个这样的电子邮件链,我想知道如何对它们进行分类或聚类。

我正在使用Apache Spark的MLlib - LDA,FPgrowth和Kmeans(+一个巨大的停用词列表)。但我的结果看起来不正确。玩这些算法的params只是给我知识但不是好结果。我最大的问题是没有培训数据。不幸的是,我在网上看到的大多数解决方案都使用手动创有什么帮助吗?

1 个答案:

答案 0 :(得分:1)

试试word2vec。您可以使用它来创建单词向量或句子向量。并且还在它们之上进行k-means聚类。

如果您正在寻找嘈杂的文本数据集,可以查看