LDA模型转化数据背后的概念

时间:2017-08-12 20:06:50

标签: evaluation text-classification lda topic-modeling multilabel-classification

我的问题与 Latent Dirichlet Allocation 有关。假设我们在数据集上应用LDA,然后对其应用拟合变换。

输出是一个矩阵,它是五个文档的集合。每个文件包含三个主题。其他产出如下:

[[ 0.0922935   0.09218227  0.81552423]
 [ 0.81396651  0.09409428  0.09193921]
 [ 0.05265482  0.05240119  0.89494398]
 [ 0.05278187  0.89455775  0.05266038]
 [ 0.85209554  0.07338382  0.07452064]]

因此,这是一个矩阵,它将被发送到分类方法以用于评估目的。

对于分类部分,我们需要每行的标签。但我们没有标签,这意味着我必须自己创建它们。

一种方法可能是将每个主题的最高概率作为相应的标签。

例如,标签可能如下:

[2,0,2,1,0,]

然而,这是一个非常简单的例子。

如果每个文档只有两个主题,我也可以考虑每个文档的两个最高概率。所以,这个例子是这样的:

[[ 0.0922935   0  0.81552423]
 [ 0.81396651  0.09409428  0]
 [ 0.05265482  0  0.89494398]
 [ 0.05278187  0.89455775  0]
 [ 0.85209554  0  0.07452064]]

正如您所看到的,如果每个标签具有最高概率,我就会保持相同的概率。

哪种方法是正确的?有没有人使用过更有意义的其他方法?

非常感谢提前!

0 个答案:

没有答案