我正在尝试创建小提琴图,显示平均值的置信区间。我认为一个简单的方法是在小提琴图上绘制一个点图,但这不起作用,因为它们似乎在xaxis中使用不同的索引,如下例所示:
import matplotlib.pyplot as plt
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.dropna(inplace=True)
fig, (ax1,ax2,ax3) = plt.subplots(1,3, sharey=True, figsize=(12,4))
#ax1
sns.pointplot("who", "age", data=titanic, join=False,n_boot=10, ax=ax1)
#ax2
sns.violinplot(titanic.age, groupby=titanic.who, ax=ax2)
#ax3
sns.pointplot("who", "age", data=titanic, join=False, n_boot=10, ax=ax3)
sns.violinplot(titanic.age, groupby=titanic.who, ax=ax3)
ax3.set_xlim([-0.5,4])
print(ax1.get_xticks(), ax2.get_xticks())
给出:[0 1 2] [1 2 3]
为什么这些情节没有将相同的xtick数字分配给' who' -variable并且有什么方法可以改变它?
我也想知道无论如何我都可以改变点图的标记,因为正如你在图中所看到的那样,这个点太大了,所以它覆盖了整个置信区间。如果可能的话,我想要一条水平线。
答案 0 :(得分:6)
我在这里发布我的最终解决方案。我之所以想要开始这种情节的原因,是在同一图中显示有关分布形状,均值偏移和异常值的信息。通过mwaskom的指针和其他一些调整,我终于得到了我想要的东西。 左图是作为线条绘制的所有数据点的比较,右手图是我的最终图形。小提琴中间的粗灰线是平均值的自举99%置信区间,即白色水平线,均来自点图。三条虚线是标准的第25,第50和第75百分位数,外面的线条是在小提琴图上方绘制的箱线图的胡须的上限。个别数据点被绘制为超出此点的线,因为我的数据通常有一些极端的数据点,我需要手动删除,如下面小提琴中的两个点。
现在,我将继续制作除了这些增强型小提琴之外的直方图和箱形图,但我希望发现所有信息都准确地在小提琴图中捕获,我可以开始并依赖它作为我的主要初步数据探索图。这是生成图表的最终代码,以防其他人发现它们有用(或找到可以改进的东西)。很多调整到箱线图。
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
#change the linewidth which to get a thicker confidence interval line
mpl.rc("lines", linewidth=3)
df = sns.load_dataset("titanic")
df.dropna(inplace=True)
x = 'who'
y = 'age'
fig, (ax1,ax2) = plt.subplots(1,2, sharey=True, figsize=(12,6))
#Left hand plot
sns.violinplot(df[y], groupby=df[x], ax=ax1, inner='stick')
#Right hand plot
sns.violinplot(df[y], groupby=df[x], ax=ax2, positions=0)
sns.pointplot(df[x],df[y], join=False, ci=99, n_boot=1000, ax=ax2, color=[0.3,0.3,0.3], markers=' ')
df.boxplot(y, by=x, sym='_', ax=ax2, showbox=False, showmeans=True, whiskerprops={'linewidth':0},
medianprops={'linewidth':0}, flierprops={'markeredgecolor':'k', 'markeredgewidth':1},
meanprops={'marker':'_', 'color':'w', 'markersize':6, 'markeredgewidth':1.5},
capprops={'linewidth':1, 'color':[0.3,0.3,0.3]}, positions=[0,1,2])
#One could argue that this is not beautiful
labels = [item.get_text() + '\nn=' + str(df.groupby(x).size().loc[item.get_text()]) for item in ax2.get_xticklabels()]
ax2.set_xticklabels(labels)
#Clean up
fig.suptitle('')
ax2.set_title('')
fig.set_facecolor('w')
修改:已添加' n ='
答案 1 :(得分:3)
violinplot
采用positions
参数,您可以将小提琴放在其他位置(它们目前只是继承了默认的matplotlib boxplot位置)。
pointplot
使用markers
参数,您可以使用该参数来更改点估计的呈现方式。