熊猫中两列之间的概率分布距离

时间:2019-05-28 11:43:39

标签: pandas dataframe pandasql

我有一个类型为

的数据框
userId | distrib1  | distrib2 | distrib3
________________________________________
125        21.2        20.6       1.1
143        19.7        16.2       3.2
426        23.5        22.1       9.4
...

我想以某种方式找到distrib1distrib2distrib3列之间的相似性度量(并进行计算)。我将在此处提供更多详细信息或工作代码,但我不知道从哪里开始。 我知道存在概率分布的距离度量,但是我不知道如何将其应用于熊猫列。

有用的一件事是将这些值拆分为存储桶,然后比较两个列之间存储桶的重叠。

我需要首先计算根据distrib1在[0,5]区间中取值的用户数量,然后根据distrib2在相同的区间中取值,然后移至区间[5,10]并执行相同的操作。有没有更简单的方法可以做到这一点?

0 个答案:

没有答案