这个问题是基于我目前的理解(有关更精确的统计术语的编辑,非常欢迎)。在我的假设中,概率是正确的术语。我想做probit_pdf
和probit_cdf
probit_pdf
是变量等于确定值的概率
probit_cdf
是变量与值相减的概率
这是我的数据
Id Value
1 2
2 4
3 2
4 6
5 5
6 4
7 2
8 4
9 2
10 5
为了使问题更清楚,我举几个Id
的例子
probit_pdf
示例,用于Id = 1
:
这是预期的输出,因为Value = 2
的概率是0.40
(4
中的10
),所以probit_pdf
是0.40
。
probit_cdf
示例,用于Id = 5
:
而且由于Value >= 5
的概率是0.90
(9
中的10
),所以probit_cdf
是0.90
所以我的预期输出是
Id Value probit_pdf probit_cdf
1 2 0.40 0.40
2 4 0.30 0.70
3 2 0.40 0.40
4 6 0.10 1.00
5 5 0.20 0.90
6 4 0.30 0.70
7 2 0.40 0.40
8 4 0.30 0.70
9 2 0.40 0.40
10 5 0.20 0.90
答案 0 :(得分:1)
首先对probit_pdf
使用GroupBy.transform
与size
并除以DataFrame
的长度,对于probit_cdf
,将每个值除以所有值,得到{{1 } s和除法相同:
sum