我是Python的新手。我有一列具有10000个唯一值的列,我想保留尽可能多的这些值。我的其他字段是介于0到1之间的比率,但是我不知道什么是理想的过滤器,它可以使我减少记录数量并仍然保留大多数唯一值。
x y z
a05 0.9 0.5
a06 0.5 0.4
a05 0.6 0.1
对于每个X值,我都有多个重复记录。我希望我的输出成为y和z的阈值(例如y = 0.6和z = 0.1),我正在尝试减少重复次数,但不一定X的每个唯一值只有一个字段。更重要的是,我要使用过滤器为x保留尽可能多的唯一值。有解决这个问题的好方法吗?