Question

我正在完成一项工作，并且正在尝试检查某些信息之间的相关性。

基本上，我从事故幸存者那里获得了数据，我想知道其他信息与他们的生存能力之间的相关性。

所以，我有所有信息的主要df，然后：

       #creating a df to list who not survived(0) and another df to list who survived(1)
 Input:     df_s0 = df.query("Survived == 0")
            df_s1 = df.query("Survived == 1")

 Input:     df_s0.corr()

Answer 1

基于相关公式：

cor（a，b）= cov（a，b）/（stdev（a）* stdev（b））

如果a或b都是常数（零方差），则这两个之间的相关性未定义（除以产生零的NaN）。在您的示例中，Survived的{{1}}列是常量（全零），因此该列与其他列的相关性未定义。

如果您想弄清楚离散变量（幸存的）与其余特征之间的关系，可以查看箱形图（以便能够比较均值，IQR等的不同统计量）。您在不同的幸存的0和1组中的特征。如果您想更进一步，可以使用ANOVA根据特征在不同组内和不同组中的差异来表征您的重要性！

Python-df.corr中的NaN值

1 个答案: