我有大约50行有标签的数据。数据中也有一个真实来源。真相来源描述了最终用户体验。
我还有50,000行数据,但数据中没有真实来源。
我打算做以下事情: - 使用50行数据构建随机森林分类器。
不确定数据集的开头是否非常小。
我读过有关半监督学习的内容,这是我理解的内容,并将适用于我的情况。
使用从这50行中获得的分类器将其应用于50,000行数据。 然后从未标记数据中选择最顶层的k行,这些数据的错误率最低或最准确。
将这K行添加到标记数据中,然后在这组数据上再次运行分类器并重复上述过程。
有没有人尝试过这种技术?
基本上我试图解决使用小数据集进行分类然后应用于更大数据集的问题。
答案 0 :(得分:1)
如果目标是归咎于失踪的真相来源"对于50,000个未标记的观察值,我不认为您通过所描述的增量训练程序获得任何收益。我认为最好的选择是使用50个标记的观测值训练一个随机森林并用它来估算所有未标记数据的真实来源。为了估计其性能,我建议你重复进行交叉验证。
我不认为增量过程增加任何值的原因是你无法分辨哪些未标记的观测值具有最低的预测误差。如果你使用某种形式的叶节点纯度来确定每个预测的好坏,你就有可能重新训练你的分类器过度拟合的结果,使它变得越来越糟。