machine-learning - 情感分析和原始文本的有效聚类，具有最小的上下文

假设我有一个电子邮件链，其中有2人讨论问题及其解决方案。我也有一些背景。例如，电子邮件链是关于使用iPhone 6和iOS 7的一些问题。就是这样。从这些电子邮件的内容/文本中，我需要弄清楚究竟是什么问题以及提出的解决方案究竟是什么。

现在，如果我们将这个问题移植到大数据，即数百万个这样的电子邮件链，我想知道如何对它们进行分类或聚类。

我正在使用Apache Spark的MLlib - LDA，FPgrowth和Kmeans（+一个巨大的停用词列表）。但我的结果看起来不正确。玩这些算法的params只是给我知识但不是好结果。我最大的问题是没有培训数据。不幸的是，我在网上看到的大多数解决方案都使用手动创有什么帮助吗？