假设我有一个电子邮件链,其中有2人讨论问题及其解决方案。我也有一些背景。例如,电子邮件链是关于使用iPhone 6和iOS 7的一些问题。就是这样。从这些电子邮件的内容/文本中,我需要弄清楚究竟是什么问题以及提出的解决方案究竟是什么。
现在,如果我们将这个问题移植到大数据,即数百万个这样的电子邮件链,我想知道如何对它们进行分类或聚类。
我正在使用Apache Spark的MLlib - LDA,FPgrowth和Kmeans(+一个巨大的停用词列表)。但我的结果看起来不正确。玩这些算法的params只是给我知识但不是好结果。我最大的问题是没有培训数据。不幸的是,我在网上看到的大多数解决方案都使用手动创有什么帮助吗?