我的问题与 Latent Dirichlet Allocation 有关。假设我们在数据集上应用LDA,然后对其应用拟合变换。
输出是一个矩阵,它是五个文档的集合。每个文件包含三个主题。其他产出如下:
[[ 0.0922935 0.09218227 0.81552423]
[ 0.81396651 0.09409428 0.09193921]
[ 0.05265482 0.05240119 0.89494398]
[ 0.05278187 0.89455775 0.05266038]
[ 0.85209554 0.07338382 0.07452064]]
因此,这是一个矩阵,它将被发送到分类方法以用于评估目的。
对于分类部分,我们需要每行的标签。但我们没有标签,这意味着我必须自己创建它们。
一种方法可能是将每个主题的最高概率作为相应的标签。
例如,标签可能如下:
[2,0,2,1,0,]
然而,这是一个非常简单的例子。
如果每个文档只有两个主题,我也可以考虑每个文档的两个最高概率。所以,这个例子是这样的:
[[ 0.0922935 0 0.81552423]
[ 0.81396651 0.09409428 0]
[ 0.05265482 0 0.89494398]
[ 0.05278187 0.89455775 0]
[ 0.85209554 0 0.07452064]]
正如您所看到的,如果每个标签具有最高概率,我就会保持相同的概率。
哪种方法是正确的?有没有人使用过更有意义的其他方法?
非常感谢提前!