Python-df.corr中的NaN值

时间:2018-08-23 23:46:16

标签: python dataframe correlation

我正在完成一项工作,并且正在尝试检查某些信息之间的相关性。

基本上,我从事故幸存者那里获得了数据,我想知道其他信息与他们的生存能力之间的相关性。

所以,我有所有信息的主要df,然后:

       #creating a df to list who not survived(0) and another df to list who survived(1)
 Input:     df_s0 = df.query("Survived == 0")
            df_s1 = df.query("Survived == 1")

 Input:     df_s0.corr()

Output

1 个答案:

答案 0 :(得分:0)

基于相关公式:

  

cor(a,b)= cov(a,b)/(stdev(a)* stdev(b))

如果a或b都是常数(零方差),则这两个之间的相关性未定义(除以产生零的NaN)。 在您的示例中,Survived的{​​{1}}列是常量(全零),因此该列与其他列的相关性未定义。

如果您想弄清楚离散变量(幸存的)与其余特征之间的关系,可以查看箱形图(以便能够比较均值,IQR等的不同统计量)。您在不同的幸存的0和1组中的特征。如果您想更进一步,可以使用ANOVA根据特征在不同组内和不同组中的差异来表征您的重要性!