机器学习手册标签质量

时间:2014-03-24 19:39:32

标签: machine-learning classification

我有一个多标签分类任务。

有一组标签,当我评估性能时,我看到一般所有标签都可以分为两组,性能良好的标签和性能差的标签,它们之间的差距很大。

我正在寻找一种如何评估手动标签质量的方法。我知道这不是微不足道的,但我肯定可以做一些调查。例如,在好的标签中,我看到有一组具有高权重的属性来表征这些标签,对于性能不佳的标签,我看不到任何好的功能。

为了看到好标签和不良标签之间的差异,还有什么可以做的?

1 个答案:

答案 0 :(得分:0)

如果没有关于您的设置的更多详细信息,很难提供任何具体的建议。

通常与众包数据一起使用的一种方法是向多个人询问标签。如果标签本质上是分类的,则仅使用由几个贴标机选择的标签。如果标签是连续的,则通常是平均值。您需要始终考虑某些贴标机是恶意添加噪音还是不完全理解任务的可能性。

但是你需要小心。如果您的标签是合理的,那么您的实验结果告诉您,您拥有的属性并不擅长估算标签。因此,您可能会遇到描述问题而不是标签质量问题。这些描述问题在NLP和计算机视觉中很常见,例如,在描述感兴趣的对象时很困难。

如果您可以添加更多有关您的数据以及您想要完成的内容以及特定实验的结果,我可以添加更具体的建议。