我正在完成一项工作,并且正在尝试检查某些信息之间的相关性。
基本上,我从事故幸存者那里获得了数据,我想知道其他信息与他们的生存能力之间的相关性。
所以,我有所有信息的主要df,然后:
#creating a df to list who not survived(0) and another df to list who survived(1)
Input: df_s0 = df.query("Survived == 0")
df_s1 = df.query("Survived == 1")
Input: df_s0.corr()
答案 0 :(得分:0)
基于相关公式:
cor(a,b)= cov(a,b)/(stdev(a)* stdev(b))
如果a或b都是常数(零方差),则这两个之间的相关性未定义(除以产生零的NaN)。
在您的示例中,Survived
的{{1}}列是常量(全零),因此该列与其他列的相关性未定义。
如果您想弄清楚离散变量(幸存的)与其余特征之间的关系,可以查看箱形图(以便能够比较均值,IQR等的不同统计量)。您在不同的幸存的0和1组中的特征。如果您想更进一步,可以使用ANOVA根据特征在不同组内和不同组中的差异来表征您的重要性!