使用多种训练数据源进行监督学习

时间:2011-09-02 21:44:58

标签: artificial-intelligence machine-learning

我不确定这是机器学习问题的正确交换网站,但之前我确实看过ML问题所以我正在尝试运气(也发布在http://math.stackexchange.com)。

我有来自不同来源的培训实例,因此构建一个模型效果不佳。在这种情况下是否有已知的方法?

示例解释最佳。假设我想根据不同人群构建的训练数据对癌症/非癌症进行分类。一个群体的训练实例可能与其他群体的正面/负面例子分布完全不同。现在,我可以为每个人口建立一个单独的模型,但问题是,对于测试,我不知道测试实例来自哪个群体。

*所有训练/测试实例都具有完全相同的功能集,无论它们来自哪个群体。

4 个答案:

答案 0 :(得分:2)

我怀疑这可能不会比将所有数据投入到整套训练过的单一分类器中更好。从较高的层面来看,数据集的功能应该告诉您标签,而不是输入分布。但你可以尝试一下。

为尝试预测标签的每个数据集训一个单独的分类器。然后在组合分布上训练分类器,尝试预测数据点来自哪个数据集。然后,当您想要预测测试实例的标签时,请使用每个子分类器,并使其权重与高级数据集分类器指定的权重成比例。

这感觉很像高斯混合中的估计步骤,其中您通过采用由K中心的估计分配的​​概率加权平均来指定生成数据点的概率。

答案 1 :(得分:1)

答案 2 :(得分:1)

如果您只对预测感兴趣(我认为,因为您正在谈论有监督的学习),那么混合数据集并训练联合模型没有任何问题。

如果您使用的是SVM,神经网络或逻辑回归等模型,则可能有助于添加另一个功能,以指示样本所属的群体。一旦得到一个看不见的样本,将此功能设置为中性值(例如,对于弹出1使用-1,对于pop2使用+1,对于看不见的样本使用0)。

然后,您可以非常轻松地检查这两个群体的差异。

答案 3 :(得分:0)

一个天真的想法是:如果你有相同的训练/测试集功能,你可以为每个人口构建一个单独的分类器。您可以将测试集提供给整体,并查看与测试实例的目标总体匹配的分类器是否表现更好,所有其他分类器是否更差(或者您可以学习某种差异)。

您是否可以构建单独的分类器来预测实例所属的人口?如果是,您可以将其用作预分类并执行以后的操作。