我正在可视化泰坦尼克号数据集。我创建了9个不同的年龄类别,并尝试使用条形图可视化age_categories vs Survived。我写了以下代码:
age_cats = [1, 2, 3, 4, 5, 6, 7, 8, 9]
df_train['Age_Cats'] = pd.cut(df_train['Age'], 9, labels = age_cats)
sns.barplot(x = 'Age_Cats', y = 'Survived', hue = 'Sex', data = df_train)
我不明白Y轴上的数字代表什么?
我的假设是:
{n(生存= 1)} / {n(生存= 1)+ n(生存= 0)},即该类别中所有幸存的人口比例。但是seaborn如何计算呢? 还是Y轴上的数字代表其他任何内容?
答案 0 :(得分:1)
条形图显示了存活率或幸存者的百分比。
例如在1岁年龄段,所有男性中有60%存活了下来。在7岁年龄段,只有不到15%的男性存活。
通过计算该年龄段的生存变量的平均值来计算。例如。如果您有3个人,其中2个人还活着,那么此变量可能类似于[1,0,1]
,则此数组的平均值为(1+0+1)/3=0.66
;条形图将因此显示最高0.66的条形。