标签: machine-learning duplicates
我有一个关于数据帧中重复值的概念性问题,该数据帧用于机器学习项目以预测某事。
应该删除数据错误(相同的索引,相同的值等),因为它不是真实的,会产生噪声并由于错误而产生。毫无疑问。
但是,如果我有不同的观察值(不同的索引)却具有相同的值怎么办?也应该丢弃它们吗?还是因为这是一个不同的观察,它应该保持原样?还是根本没关系?
预先感谢