多标签分类做得对吗?

时间:2011-02-15 09:33:10

标签: r machine-learning weka

假设我有一个数据集,可以使用weka的J48或R中的randomForest对其进行整齐分类。 现在让我们说我有另一个培训文件,每个数据点包含两个分类。

我如何将这两者结合起来才能将新数据点分类为这两个类?

(所以我需要进行"双程"培训。)

我应该使用MLP(如受限制的Bolzmann机器)吗?

1 个答案:

答案 0 :(得分:1)

我假设您的两个数据集看起来像这样......

数据集1:

(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....

数据集2:

(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....

假设这就是你的问题,我会把它分成两个问题:预测两个不同的标签。我认为这可以用概率公式证明:

p(L1,L2|X) = p(L2|L1,X)p(L1|X)

其中L1和L2是两个类标签,X是数据。

我的建议是使用数据集1和2以及L1作为目标变量训练p(L1 | X)的模型,然后使用数据集2和L1训练p(L2 | L1,X)模型,使用L2作为你的目标变量。要预测一对新标签,您应用第一个模型来估算L1,然后使用L1的估计值来估算第二个模型。

我认为反对这种方法的论点是,尽管公式为真,但p(L1,L2 | X)比p(L2 | L1,X)和p(L1)更容易学习。 | X)。但是,在没有更多细节的情况下,我真的不知道。