有没有一种方法可以通过在其他列上找到最佳过滤器来保留最大的不同值

时间:2020-06-10 21:18:06

标签: python-3.x pandas dataframe

我是Python的新手。我有一列具有10000个唯一值的列,我想保留尽可能多的这些值。我的其他字段是介于0到1之间的比率,但是我不知道什么是理想的过滤器,它可以使我减少记录数量并仍然保留大多数唯一值。

x y z

a05 0.9 0.5

a06 0.5 0.4

a05 0.6 0.1

对于每个X值,我都有多个重复记录。我希望我的输出成为y和z的阈值(例如y = 0.6和z = 0.1),我正在尝试减少重复次数,但不一定X的每个唯一值只有一个字段。更重要的是,我要使用过滤器为x保留尽可能多的唯一值。有解决这个问题的好方法吗?

1 个答案:

答案 0 :(得分:0)

我认为您可以使用pandas drop_duplicates,因此您可以删除基于列子集的重复值。