所以我有一个数据表,看起来像下面的样子。 ID代表一个对象,bin代表我如何对数据进行分段,百分比是有多少数据属于该bin。
id bin percent
2 8 0.20030698388
2 16 0.14504988488
2 24 0.12356101304
2 32 0.09976976208
2 40 0.09056024558
2 48 0.07137375287
2 56 0.04067536454
2 64 0.03914044512
2 72 0.02916346891
2 80 0.16039907904
3 8 0.36316695352
3 16 0.03958691910
3 24 0.11876075731
3 32 0.13253012048
3 40 0.03098106712
3 48 0.07228915662
3 56 0.07745266781
3 64 0.02581755593
3 72 0.02065404475
3 80 0.11876075731
我正在寻找将这个数据集转换为cdf分区ID的函数。我尝试了cume_dist和percent_rank,但它们似乎没有用。
答案 0 :(得分:0)
我正面临着类似的问题,并且发现了这个出色的教程,正是这样做的:
它将尝试重建Excel函数NORM.DIST函数,如果将累积标志设置为FALSE,则为您提供PDF,如果将其设置为TRUE,则为您提供CDF。我假设CUME_DIST在SQL中会做完全相同的事情。但是,事实证明,后者通过对元素进行计数来分布,而Excel使用值中的相对差异。