LDA模型可以用于句子（而不是文档）聚类/分类吗？

时间：2017-10-24 00:46:44

标签： pyspark cluster-analysis text-mining text-classification lda

最近，我正在研究句子分类问题，这些句子只不过是关于产品和客户的一两条评论，就产品提供的各种功能提供反馈。在预处理（删除停用词和词干）之后，我正在使用特征提取库（如word2vec，tf-idf）和聚类算法（k-mean）来运行我的句子以进行无监督的句子分类 - 输出是可以接受的。然而，我正在寻找更多关于聚类算法的选项，特别想尝试LDA以进一步提高输出质量，但是我遇到了this论文，列出了关于LDA用于句子分类的一些事实。

我的问题是 - 在句子（而不是文件）分类上使用LDA会有帮助吗？除了K-mean之外，什么是无监督学习的其他替代方案，这可以很好地与句子分类。提前感谢你的所有建议。

注意：我正在使用pyspark API在Spark 1.6.1环境中练习练习。

在我自己尝试LDA之后，输出以下内容：

1个主题类似：每个主题的频繁词语重叠很多，主题分享几乎相同的词汇。

我的理解之一是，我的评论属于特定领域。例如，我的产品属于信用卡域名＆amp;所有关于这个单一领域的评论。此外，我尝试绘制文字分布，发现最常使用的词只占总人口的2％左右。

3 个答案:

答案 0 :(得分：1)

是。 LDA 可以（但并非总是）也在处理句子。

但是，对于较长的文档，它往往更好。但是你的句子比推文更长，这很好。

答案 1 :(得分：1)

重叠不一定是您的输入（文档或句子）的函数，但很可能是您的超参数选择的结果。例如，您可以选择较低的alpha来减少与主题的重叠。

从 https://stats.stackexchange.com/questions/37405/natural-interpretation-for-lda-hyperparameters

在实践中，高alpha值将导致文档在其包含的主题方面更加相似。高beta值同样会导致主题在包含的词语方面更加相似。

答案 2 :(得分：1)

“”“ 与我们提议的“一个”不同每个句子的主题”假设，所有这些方法允许每个句子包含多个主题，并且使用各种方法来合并句子结构。最直接的方法是对待每个句子作为文档并应用LDA模型关于收集句子而不是文件。尽管简单，但这种方法称为local-LDA （Brody和Elhadad，2010年），已被证明可以有效地发现有意义的主题，而总结消费者评论。（第1376页） “” 参见：https://pubsonline.informs.org/doi/pdf/10.1287/mnsc.2014.1930