使用sklearn包实现哪些观察与LDA中的主题模型相关联

时间:2016-11-04 06:47:56

标签: machine-learning scikit-learn lda unsupervised-learning sklearn-pandas

我已经成功实现了这个example in Sklearn,我可以很好地看到这些主题,但是我如何回到那些主题形成的观察结果?我知道这可以使用SAS企业矿工,但我不知道如何在sklearn中这样做。 任何帮助,将不胜感激!谢谢。

3 个答案:

答案 0 :(得分:1)

NMF (非负矩阵分解)将正矩阵分解为两个正矩阵的乘积,如下所示。

enter image description here

在您的情况下,V是从您的文本语料库中获取的TF-IDF矩阵。 NMF将其分解为W,称为主题矩阵,因为每列代表一个主题(每行是主题的代表性词语)ans H,称为激活矩阵(权重)。

因此,每个文本语料库都是主题的线性组合。所以你不能真正谈论主题成员资格 - 哪个文本属于哪个主题 - 因为它可以在某种程度上属于所有主题。

答案 1 :(得分:0)

方法fetch_20newsgroups完全符合您在处理数据之前加载数据。

Here是指向该功能文档的链接,如果您想了解它的工作原理。

基本上,当您使用sklearn 数据集时,导入模块datasets并调用一些函数来实现您的本地数据集目录。

您可以在此处找到数据:

/sklearn/datasets/

它包含一个带有一些csv文件的data目录:

enter image description here

答案 2 :(得分:0)

LDA和transform中的NMF方法有助于提供属于主题的观察概率。