我有一个Pandas数据框,它有几个组列,如下所示。
gr1 grp2 variables lb m ub
A A1 V1 1.00 1.50 2.5
A A2 V2 1.50 2.50 3.5
B A1 V1 3.50 14.50 30.5
B A2 V2 0.25 0.75 1.0
我正在尝试使用variables
为FacetGrid
中的每个变量创建一个单独的子条形图。我正在努力构建我需要的最终情节,如下所示。
这是我到目前为止所做的。
g = sns.FacetGrid(df, col="variables", hue="grp1")
g.map(sns.barplot, 'grp2', 'm', order=times)
但不幸的是,这是堆叠我的所有数据点。
我应该如何使用Seaborn
执行此操作?
更新:以下代码主要执行我之前的操作,但目前不显示yerr
。
g = sns.factorplot(x="Grp2", y="m", hue="Grp1", col="variables", data=df, kind="bar", size=4, aspect=.7, sharey=False)
如何将lb
和ub
作为误差条纳入factorplot?
答案 0 :(得分:3)
在我们开始之前让我提一下matplotlib要求错误是相对于数据而不是绝对边界。因此,我们将通过减去相应的列来修改数据框以解决这个问题。
u = u"""grp1 grp2 variables lb m ub
A A1 V1 1.00 1.50 2.5
A A2 V2 1.50 2.50 3.5
B A1 V1 7.50 14.50 20.5
B A2 V2 0.25 0.75 1.0
A A2 V1 1.00 6.50 8.5
A A1 V2 1.50 3.50 6.5
B A2 V1 3.50 4.50 15.5
B A1 V2 8.25 12.75 13.9"""
import io
import pandas as pd
df = pd.read_csv(io.StringIO(u), delim_whitespace=True)
# errors must be relative to data (not absolute bounds)
df["lb"] = df["m"]-df["lb"]
df["ub"] = df["ub"]-df["m"]
现在有两种解决方案,基本相同。让我们从一个不使用seaborn的解决方案开始,但是大熊猫绘图包装器(原因将在后面变得清晰)。
Pandas允许使用每列属于或构成一个组的数据框来绘制分组条形图。 因此,采取的步骤是
variables
。groupby
日期框架variables
grp1
为列,m
为值。对两个错误列执行相同的操作。然后代码如下:
import io
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv(io.StringIO(u), delim_whitespace=True)
# errors must be relative to data (not absolute bounds)
df["lb"] = df["m"]-df["lb"]
df["ub"] = df["ub"]-df["m"]
def func(x,y,h,lb,ub, **kwargs):
data = kwargs.pop("data")
# from https://stackoverflow.com/a/37139647/4124317
errLo = data.pivot(index=x, columns=h, values=lb)
errHi = data.pivot(index=x, columns=h, values=ub)
err = []
for col in errLo:
err.append([errLo[col].values, errHi[col].values])
err = np.abs(err)
p = data.pivot(index=x, columns=h, values=y)
p.plot(kind='bar',yerr=err,ax=plt.gca(), **kwargs)
fig, axes = plt.subplots(ncols=len(df.variables.unique()))
for ax, (name, group) in zip(axes,df.groupby("variables")):
plt.sca(ax)
func("grp2", "m", "grp1", "lb", "ub", data=group, color=["limegreen", "indigo"])
plt.title(name)
plt.show()
Seaborn factorplot不允许使用自定义错误栏。因此,人们需要使用FaceGrid
方法。为了不将条形图堆叠起来,可以将hue
参数放在map
调用中。因此,以下内容相当于问题的sns.factorplot
调用。
g = sns.FacetGrid(data=df, col="variables", size=4, aspect=.7 )
g.map(sns.barplot, "grp2", "m", "grp1", order=["A1","A2"] )
现在的问题是,我们无法从外部将错误栏放入条形图中,或者更重要的是,我们无法将分组条形图的错误提供给seaborn.barplot
。对于非分组的条形图,可以通过yerr
参数提供错误,该参数将传递到matplotlib plt.bar
图上。这个概念显示在this question中。但是,由于seaborn.barplot
多次调用plt.bar
,每次hue
调用一次,因此每个调用中的错误将相同(或者它们的维度不匹配)。
因此,我看到的唯一选项是使用FacetGrid
并映射与上面使用的完全相同的函数。这在某种程度上使得seaborn的使用过时了,但为了完整起见,这里是FacetGrid
解决方案。
import io
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv(io.StringIO(u), delim_whitespace=True)
# errors must be relative to data (not absolute bounds)
df["lb"] = df["m"]-df["lb"]
df["ub"] = df["ub"]-df["m"]
def func(x,y,h,lb,ub, **kwargs):
data = kwargs.pop("data")
# from https://stackoverflow.com/a/37139647/4124317
errLo = data.pivot(index=x, columns=h, values=lb)
errHi = data.pivot(index=x, columns=h, values=ub)
err = []
for col in errLo:
err.append([errLo[col].values, errHi[col].values])
err = np.abs(err)
p = data.pivot(index=x, columns=h, values=y)
p.plot(kind='bar',yerr=err,ax=plt.gca(), **kwargs)
g = sns.FacetGrid(df, col="variables", size=4, aspect=.7, )
g.map_dataframe(func, "grp2", "m", "grp1", "lb", "ub" , color=["limegreen", "indigo"])
g.add_legend()
plt.show()