我有一个类型为
的数据框userId | distrib1 | distrib2 | distrib3
________________________________________
125 21.2 20.6 1.1
143 19.7 16.2 3.2
426 23.5 22.1 9.4
...
我想以某种方式找到distrib1
,distrib2
和distrib3
列之间的相似性度量(并进行计算)。我将在此处提供更多详细信息或工作代码,但我不知道从哪里开始。
我知道存在概率分布的距离度量,但是我不知道如何将其应用于熊猫列。
有用的一件事是将这些值拆分为存储桶,然后比较两个列之间存储桶的重叠。
我需要首先计算根据distrib1在[0,5]区间中取值的用户数量,然后根据distrib2在相同的区间中取值,然后移至区间[5,10]并执行相同的操作。有没有更简单的方法可以做到这一点?