Question

假设我有一个数据集，可以使用weka的J48或R中的randomForest对其进行整齐分类。现在让我们说我有另一个培训文件，每个数据点包含两个分类。

我如何将这两者结合起来才能将新数据点分类为这两个类？

（所以我需要进行＆＃34;双程＆＃34;培训。）

我应该使用MLP（如受限制的Bolzmann机器）吗？

Answer 1

我假设您的两个数据集看起来像这样......

数据集1：

(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....

数据集2：

(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....

假设这就是你的问题，我会把它分成两个问题：预测两个不同的标签。我认为这可以用概率公式证明：

p(L1,L2|X) = p(L2|L1,X)p(L1|X)

其中L1和L2是两个类标签，X是数据。

我的建议是使用数据集1和2以及L1作为目标变量训练p（L1 | X）的模型，然后使用数据集2和L1训练p（L2 | L1，X）模型，使用L2作为你的目标变量。要预测一对新标签，您应用第一个模型来估算L1，然后使用L1的估计值来估算第二个模型。

我认为反对这种方法的论点是，尽管公式为真，但p（L1，L2 | X）比p（L2 | L1，X）和p（L1）更容易学习。 | X）。但是，在没有更多细节的情况下，我真的不知道。