我下载了Skin Segmentation Data Set,发现它包含很多重复内容
例如,此行0 128 0 2
遇到了199次。
请提供一些例子,当重复是好的,什么时候是邪恶的。
答案 0 :(得分:1)
当然是的,因为如果它是随机样本,它代表数据中的基础分布,它告诉您该特定值具有更高的概率。删除重复项只会使数据集变得毫无用处。
答案 1 :(得分:0)
这很重要。
例如:如果行'a'在您的数据中出现5次而另一行'b'只出现一次,那么您会想要将行'a'分类为优于'b',因为当您计算时成本函数,'a'行会出现更多时间,对成本影响更大。
而且,如果你的训练代表了测试数据,那么'a'行很可能会出现比'b'行更多的次数。