如何从熊猫的数值数据(cdf和pdf样式)中进行概率特征工程

时间:2018-07-24 10:51:40

标签: python pandas dataframe feature-extraction

这个问题是基于我目前的理解(有关更精确的统计术语的编辑,非常欢迎)。在我的假设中,概率是正确的术语。我想做probit_pdfprobit_cdf

probit_pdf是变量等于确定值的概率  probit_cdf是变量与值相减的概率

这是我的数据

   Id  Value  
    1   2    
    2   4    
    3   2       
    4   6     
    5   5      
    6   4      
    7   2    
    8   4     
    9   2
    10  5

为了使问题更清楚,我举几个Id的例子

probit_pdf示例,用于Id = 1: 这是预期的输出,因为Value = 2的概率是0.404中的10),所以probit_pdf0.40

probit_cdf示例,用于Id = 5: 而且由于Value >= 5的概率是0.909中的10),所以probit_cdf0.90

所以我的预期输出是

Id  Value  probit_pdf   probit_cdf
1   2           0.40         0.40
2   4           0.30         0.70
3   2           0.40         0.40    
4   6           0.10         1.00
5   5           0.20         0.90
6   4           0.30         0.70
7   2           0.40         0.40
8   4           0.30         0.70
9   2           0.40         0.40
10  5           0.20         0.90

1 个答案:

答案 0 :(得分:1)

首先对probit_pdf使用GroupBy.transformsize并除以DataFrame的长度,对于probit_cdf,将每个值除以所有值,得到{{1 } s和除法相同:

sum