Question

使用简单（单级）列索引，可以使用.query（）访问pandas DataFrame中的列，如下所示：

df1 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=['A','B'])
df1.query('A > 0.5')

我正在努力在具有列多索引的DataFrame中实现类似性：

df2 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=[['A','B'],['C','D']])
df2.query('(A,C) > 0.5') # fails
df2.query('"(A,C)" > 0.5') # fails
df2.query('("A","C") > 0.5') # fails

这可行吗？感谢...

（关于动机：query（）似乎允许对行mutli-index - 列单索引数据帧进行非常简洁的选择，例如：

df3 = pd.DataFrame(np.random.rand(6,2),index=[[0]*3+[1]*3,range(2,8)],columns=['A','B'])
df3.index.names=['one','two']
df3.query('one==0 & two<4 & A>0.5')

我想在两个轴上使用DF多索引做类似的事情......）

Answer 1

github 上有一个 open issue 用于此，但与此同时，一个建议的解决方法是通过 @ 表示法通过 DataFrame 变量引用该列：

df2.query("@df2.A.C > 0.5")

这不是一个完美的解决方法。如果您的标题名称/级别包含空格，您需要先删除/重命名它们。

在pandas DataFrame中的multiindex列上查询（）？

1 个答案: