我试图在DataFrame
列上找到一个统计量(基尼系数),我需要将特定列的所有值传递给函数以计算统计量(基尼系数)。
这里,统计函数需要“值列表”并返回整数。 为了从DataFrame列中收集值列表,我尝试了以下两种方法。
方法1:
方法2:
但这两种方法似乎都很慢。
请您分享建议或其他任何有效方式。
此致 Neeraj
答案 0 :(得分:0)
如果数据已排序且没有负数或零,您可以使用此页面中描述的第三个公式计算基尼系数:
http://www.statsdirect.com/help/default.htm#nonparametric_methods/gini.htm
https://github.com/oliviaguest/gini中提供了Python实现。
使用数据框的df.groupBy().sum()
操作来计算总和是很容易的。