多个Pandas DataFrame的并排箱线图

时间:2019-06-07 23:44:49

标签: python pandas matplotlib boxplot

尽管该站点上有一些很好的示例,但我无法在一个图中为多个熊猫DataFrame生成并排框。

我尝试过:

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

df = pd.DataFrame({'A1':[9,16.2,8.1],'A2':[3.3,21.5,4.1],
                   'B1':[8,9.8,1.6],'B2':[10.8,2.2,3.6],
                   'C1':[1.3,2.8,1.6],'C2':[3.1,4.1,3.6],})

df1 = df.loc[:, 'A1':'A2']
df2 = df.loc[:, 'B1':'B2']
df3 = df.loc[:, 'C1':'C2']

fig = matplotlib.pyplot.boxplot(df1)
fig = matplotlib.pyplot.boxplot(df2)
fig = matplotlib.pyplot.boxplot(df3)
plt.show()

enter image description here

但是我想要这样的东西:

enter image description here

此外,如果我可以在框中将单个数据点显示为点,那就太好了。因此,如果有人对此也有建议,那就太好了!

谢谢!

1 个答案:

答案 0 :(得分:1)

如果我对您的理解是正确的,那么您想要6组箱形图,分为3组,每组2个(每个组是A / B / C,在每个组中您有1/2)?

您可以使用seabord轻松实现所需的结果,但是必须首先以“长格式”重构数据框。 我首先使用pd.wide_to_long()将数据划分为3个A / B / C组,并使用新列标识子组1/2,然后进一步melt生成的数据帧以获得长格式数据帧:

df = pd.DataFrame({'A1':[9,16.2,8.1],'A2':[3.3,21.5,4.1],
                   'B1':[8,9.8,1.6],'B2':[10.8,2.2,3.6],
                   'C1':[1.3,2.8,1.6],'C2':[3.1,4.1,3.6],})

df["id"] = df.index
df = pd.wide_to_long(df, stubnames=['A','B','C'], i='id', j='group').reset_index().drop('id', axis=1)
df = df.melt(id_vars='group')

现在得到的数据框是这样的:

    group   variable    value
0   1   A   9.0
1   1   A   16.2
2   1   A   8.1
3   2   A   3.3
4   2   A   21.5
5   2   A   4.1
6   1   B   8.0
7   1   B   9.8
8   1   B   1.6
9   2   B   10.8
10  2   B   2.2
11  2   B   3.6
12  1   C   1.3
13  1   C   2.8
14  1   C   1.6
15  2   C   3.1
16  2   C   4.1
17  2   C   3.6

使用seaborn's boxplot生成图很简单:

sns.boxplot(data=df, x='variable', y='value', hue='group')

enter image description here

如果需要,可以在框线图的顶部叠加一个swarmplot,以查看各个数据点

sns.boxplot(data=df, x='variable', y='value', hue='group')
sns.swarmplot(data=df, x='variable', y='value', hue='group', dodge=True, palette=['grey','grey'], s=10)

enter image description here