我有一个包含400个实例(400个用户实例)的数据集,其中包含约10个要素。如下:
f1,f2,f3,....f10,label
U1 A
U2 B
U3 AB
.. ..
U45 CAB
U46 B
U47 Nolabel
..
U100 A
...
U400 B
在周围的40万个用户实例中 其中150个是用手工标记的,在这150个实例中,有一些(大约35个)带有多个标签(请参见上面的示例)。
我的问题是,应用于此数据集以训练模型并标记这些实例的最佳分类算法是什么? 哪些没有标签(大约250个实例)?半监督学习Label传播在某种程度上可以解决此类问题,但是由于有些用户具有多个标签,因此该算法似乎不适合此任务。
我的第二个问题是,由于没有地面真相标签,我们如何才能验证那些预测的标签。