重复项在数据集中是否有用?

时间:2016-01-21 22:55:17

标签: machine-learning computer-vision classification bigdata

我下载了Skin Segmentation Data Set,发现它包含很多重复内容 例如,此行0 128 0 2遇到了199次。

请提供一些例子,当重复是好的,什么时候是邪恶的。

2 个答案:

答案 0 :(得分:1)

当然是的,因为如果它是随机样本,它代表数据中的基础分布,它告诉您该特定值具有更高的概率。删除重复项只会使数据集变得毫无用处。

答案 1 :(得分:0)

这很重要。

例如:如果行'a'在您的数据中出现5次而另一行'b'只出现一次,那么您会想要将行'a'分类为优于'b',因为当您计算时成本函数,'a'行会出现更多时间,对成本影响更大。

而且,如果你的训练代表了测试数据,那么'a'行很可能会出现比'b'行更多的次数。