应用错误收集

我有一个类型为

的数据框

userId | distrib1  | distrib2 | distrib3
________________________________________
125        21.2        20.6       1.1
143        19.7        16.2       3.2
426        23.5        22.1       9.4
...

我想以某种方式找到distrib1，distrib2和distrib3列之间的相似性度量（并进行计算）。我将在此处提供更多详细信息或工作代码，但我不知道从哪里开始。我知道存在概率分布的距离度量，但是我不知道如何将其应用于熊猫列。

有用的一件事是将这些值拆分为存储桶，然后比较两个列之间存储桶的重叠。

我需要首先计算根据distrib1在[0,5]区间中取值的用户数量，然后根据distrib2在相同的区间中取值，然后移至区间[5，10]并执行相同的操作。有没有更简单的方法可以做到这一点？

熊猫中两列之间的概率分布距离

0 个答案: