有偏见的初始数据集主动学习

时间:2016-02-14 16:19:49

标签: machine-learning statistics

选择有偏差的初始(种子)数据集会影响使用主动学习构建的机器的训练和准确性吗?

1 个答案:

答案 0 :(得分:2)

可能。假设种子数据样本存在严重偏差,并且模型尚未看到特定群集的任何示例。然后,在进行预测的同时,模型可以预测它们属于其他类别,并以较高的确定性进行此操作(即,它已严重偏离)。因此,无需为此类数据实例查询标签,也不会学习它们。但是,当我们以后使用真实标签测试模型的结果时,它会显示出较低的准确性,因为这些预测实际上是错误的。

话虽如此,我们也可能不希望种子数据中的训练数据“完全均匀”分布,因为如果我们有相当多的离群值或人为错误的不正确标签或严重偏斜但不太可能出现的数据簇,是不希望的,那会妨碍模型。

一种解决方案可以是“主动清除”此类情况,否则,我们可以允许种子数据有一定程度的有意偏见(可以针对高密度簇或有影响力的标签,或者整体分歧或模型的不确定性)。然后,在基于模型结果的进一步决策过程中,请确保考虑模型中引入的偏差。