Seaborn:使用不对称的自定义误差条按组制作条形图

时间:2017-08-25 05:48:44

标签: python matplotlib plot data-visualization seaborn

我有一个Pandas数据框,它有几个组列,如下所示。

gr1 grp2 variables  lb     m       ub
 A   A1      V1     1.00   1.50    2.5           
 A   A2      V2     1.50   2.50    3.5         
 B   A1      V1     3.50   14.50   30.5           
 B   A2      V2     0.25   0.75    1.0

我正在尝试使用variablesFacetGrid中的每个变量创建一个单独的子条形图。我正在努力构建我需要的最终情节,如下所示。

Plot with FacetGrid and Multiple Categorical Variables

这是我到目前为止所做的。

g = sns.FacetGrid(df, col="variables", hue="grp1")
g.map(sns.barplot, 'grp2', 'm', order=times)

但不幸的是,这是堆叠我的所有数据点。

我应该如何使用Seaborn执行此操作?

更新:以下代码主要执行我之前的操作,但目前不显示yerr

g = sns.factorplot(x="Grp2", y="m", hue="Grp1", col="variables", data=df, kind="bar", size=4, aspect=.7, sharey=False)

如何将lbub作为误差条纳入factorplot?

1 个答案:

答案 0 :(得分:3)

在我们开始之前让我提一下matplotlib要求错误是相对于数据而不是绝对边界。因此,我们将通过减去相应的列来修改数据框以解决这个问题。

u = u"""grp1 grp2 variables  lb     m       ub
A   A1      V1     1.00   1.50    2.5           
A   A2      V2     1.50   2.50    3.5         
B   A1      V1     7.50   14.50   20.5           
B   A2      V2     0.25   0.75    1.0
A   A2      V1     1.00   6.50    8.5           
A   A1      V2     1.50   3.50    6.5         
B   A2      V1     3.50   4.50   15.5           
B   A1      V2     8.25   12.75  13.9"""

import io
import pandas as pd

df = pd.read_csv(io.StringIO(u), delim_whitespace=True)
# errors must be relative to data (not absolute bounds)
df["lb"] = df["m"]-df["lb"]
df["ub"] = df["ub"]-df["m"]

现在有两种解决方案,基本相同。让我们从一个不使用seaborn的解决方案开始,但是大熊猫绘图包装器(原因将在后面变得清晰)。

不使用Seaborn

Pandas允许使用每列属于或构成一个组的数据框来绘制分组条形图。 因此,采取的步骤是

  1. 根据不同variables
  2. 的数量创建多个子图
  3. groupby日期框架variables
  4. 为每个组创建一个透视数据框,其值为grp1为列,m为值。对两个错误列执行相同的操作。
  5. 应用How add asymmetric errorbars to Pandas grouped barplot?
  6. 中的解决方案

    然后代码如下:

    import io
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    
    df = pd.read_csv(io.StringIO(u), delim_whitespace=True)
    # errors must be relative to data (not absolute bounds)
    df["lb"] = df["m"]-df["lb"]
    df["ub"] = df["ub"]-df["m"]
    
    def func(x,y,h,lb,ub, **kwargs):
        data = kwargs.pop("data")
        # from https://stackoverflow.com/a/37139647/4124317
        errLo = data.pivot(index=x, columns=h, values=lb)
        errHi = data.pivot(index=x, columns=h, values=ub)
        err = []
        for col in errLo:
            err.append([errLo[col].values, errHi[col].values])
        err = np.abs(err)
        p = data.pivot(index=x, columns=h, values=y)
        p.plot(kind='bar',yerr=err,ax=plt.gca(), **kwargs)
    
    fig, axes = plt.subplots(ncols=len(df.variables.unique()))
    for ax, (name, group) in zip(axes,df.groupby("variables")):
        plt.sca(ax)
        func("grp2", "m", "grp1", "lb", "ub", data=group, color=["limegreen", "indigo"])
        plt.title(name)
    
    plt.show()
    

    enter image description here

    使用Seaborn

    Seaborn factorplot不允许使用自定义错误栏。因此,人们需要使用FaceGrid方法。为了不将条形图堆叠起来,可以将hue参数放在map调用中。因此,以下内容相当于问题的sns.factorplot调用。

    g = sns.FacetGrid(data=df, col="variables", size=4, aspect=.7 ) 
    g.map(sns.barplot, "grp2", "m", "grp1", order=["A1","A2"] )
    

    现在的问题是,我们无法从外部将错误栏放入条形图中,或者更重要的是,我们无法将分组条形图的错误提供给seaborn.barplot。对于非分组的条形图,可以通过yerr参数提供错误,该参数将传递到matplotlib plt.bar图上。这个概念显示在this question中。但是,由于seaborn.barplot多次调用plt.bar,每次hue调用一次,因此每个调用中的错误将相同(或者它们的维度不匹配)。

    因此,我看到的唯一选项是使用FacetGrid并映射与上面使用的完全相同的函数。这在某种程度上使得seaborn的使用过时了,但为了完整起见,这里是FacetGrid解决方案。

    import io
    import numpy as np
    import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    df = pd.read_csv(io.StringIO(u), delim_whitespace=True)
    # errors must be relative to data (not absolute bounds)
    df["lb"] = df["m"]-df["lb"]
    df["ub"] = df["ub"]-df["m"]
    
    def func(x,y,h,lb,ub, **kwargs):
        data = kwargs.pop("data")
        # from https://stackoverflow.com/a/37139647/4124317
        errLo = data.pivot(index=x, columns=h, values=lb)
        errHi = data.pivot(index=x, columns=h, values=ub)
        err = []
        for col in errLo:
            err.append([errLo[col].values, errHi[col].values])
        err = np.abs(err)
        p = data.pivot(index=x, columns=h, values=y)
        p.plot(kind='bar',yerr=err,ax=plt.gca(), **kwargs)
    
    g = sns.FacetGrid(df, col="variables", size=4, aspect=.7,  ) 
    g.map_dataframe(func, "grp2", "m", "grp1", "lb", "ub" , color=["limegreen", "indigo"]) 
    g.add_legend()
    
    plt.show()
    

    enter image description here