我准备了一个数据集来识别某种类型的对象(大约2240个负面对象示例,只有大约90个正面对象示例)。但是,在为数据集中的每个对象计算10个要素之后,唯一训练实例的数量分别降至约130和30。
由于相同的训练实例实际上代表不同的对象,我可以说这种复制包含相关信息(例如对象特征值的分布),这可能在某种程度上有用吗?
答案 0 :(得分:10)
如果省略重复项,则会使每个不同对象的基本速率发生偏差。如果培训数据是现实世界的代表性样本,那么您就不会想要这样,因为您实际上将为一个略有不同的世界(具有不同基本费率的世界)进行培训。
为了澄清这一点,请考虑一个只有两个不同对象的场景。您的原始数据包含对象A的99和对象B的1。在丢弃重复之后,您有1个对象A和1个对象B.对重复数据删除的数据进行训练的分类器与在原始数据上训练的分类器大不相同。
我的建议是将重复项留在数据中。