LDA模型可以用于句子(而不是文档)聚类/分类吗?

时间:2017-10-24 00:46:44

标签: pyspark cluster-analysis text-mining text-classification lda

最近,我正在研究句子分类问题,这些句子只不过是关于产品和客户的一两条评论,就产品提供的各种功能提供反馈。在预处理(删除停用词和词干)之后,我正在使用特征提取库(如word2vec,tf-idf)和聚类算法(k-mean)来运行我的句子以进行无监督的句子分类 - 输出是可以接受的。然而,我正在寻找更多关于聚类算法的选项,特别想尝试LDA以进一步提高输出质量,但是我遇到了this论文,列出了关于LDA用于句子分类的一些事实。

我的问题是 - 在句子(而不是文件)分类上使用LDA会有帮助吗?除了K-mean之外,什么是无监督学习的其他替代方案,这可以很好地与句子分类。提前感谢你的所有建议。

注意:我正在使用pyspark API在Spark 1.6.1环境中练习练习。

在我自己尝试LDA之后,输出以下内容:

1个主题类似:每个主题的频繁词语重叠很多,主题分享几乎相同的词汇。

enter image description here

我的理解之一是,我的评论属于特定领域。例如,我的产品属于信用卡域名&所有关于这个单一领域的评论。此外,我尝试绘制文字分布,发现最常使用的词只占总人口的2%左右。

3 个答案:

答案 0 :(得分:1)

是。 LDA 可以(但并非总是 )也在处理句子。

但是,对于较长的文档,它往往更好。但是你的句子比推文更长,这很好。

答案 1 :(得分:1)

重叠不一定是您的输入(文档或句子)的函数,但很可能是您的超参数选择的结果。例如,您可以选择较低的alpha来减少与主题的重叠。

https://stats.stackexchange.com/questions/37405/natural-interpretation-for-lda-hyperparameters

  

在实践中,高alpha值将导致文档在其包含的主题方面更加相似。高beta值同样会导致主题在包含的词语方面更加相似。

答案 2 :(得分:1)

“”“ 与我们提议的“一个”不同 每个句子的主题”假设,所有这些方法 允许每个句子包含多个主题,并且 使用各种方法来合并句子结构。 最直接的方法是对待每个 句子作为文档并应用LDA模型 关于收集句子而不是文件。 尽管简单,但这种方法称为local-LDA (Brody和Elhadad,2010年),已被证明可以 有效地发现有意义的主题,而 总结消费者评论。 (第1376页) “” 参见:https://pubsonline.informs.org/doi/pdf/10.1287/mnsc.2014.1930