应用错误收集

重复项在数据集中是否有用？

时间：2016-01-21 22:55:17

标签： machine-learning computer-vision classification bigdata

我下载了Skin Segmentation Data Set，发现它包含很多重复内容例如，此行0 128 0 2遇到了199次。

请提供一些例子，当重复是好的，什么时候是邪恶的。

2 个答案:

答案 0 :(得分：1)

当然是的，因为如果它是随机样本，它代表数据中的基础分布，它告诉您该特定值具有更高的概率。删除重复项只会使数据集变得毫无用处。

答案 1 :(得分：0)

这很重要。

例如：如果行'a'在您的数据中出现5次而另一行'b'只出现一次，那么您会想要将行'a'分类为优于'b'，因为当您计算时成本函数，'a'行会出现更多时间，对成本影响更大。

而且，如果你的训练代表了测试数据，那么'a'行很可能会出现比'b'行更多的次数。