让我们使用这里的着名泰坦尼克号数据集:
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls
并将其作为数据框阅读:df
我感兴趣的是可视化每个乘客段的生存率,将乘客段定义为fare
x age
的hexbin桶。
生成这两个特征的hexbin非常简单:
sns.set(font_scale=1.5)
sns.set_style("white")
fig = plt.figure(figsize=(8,8))
fig = sns.jointplot("age", "fare", data=df, kind="hex",
joint_kws={'gridsize':22},
xlim=(-20, 90), ylim=(-20,300), mincnt=0,
stat_func=None, marginal_kws={"bins":10, "color":"k", "rug":True}, color="black"
)
但是不是密度(无论如何都显示在边缘图中),我希望图表的颜色代表所有乘客的存活率(survived
是二进制1& 0数据帧功能)在每个垃圾箱内计算。
答案here有些帮助,但散点图对于密集数据集是有问题的,因此我使用了一个hexbin。
任何帮助我如何使这项工作?