嘿,我是Pandas的新手,我刚遇到df.query()
。
当您可以使用括号表示法直接过滤数据帧时,为什么人们会使用df.query()
?官方的熊猫教程似乎也更喜欢后一种方法。
用括号表示法:
df[df['age'] <= 21]
使用pandas查询方法:
df.query('age <= 21')
除了已经提到的一些风格或灵活性差异之外,还有一个规范首选 - 即在大型数据帧上执行操作?
答案 0 :(得分:6)
考虑以下样本DF:
In [307]: df
Out[307]:
sex age name
0 M 40 Max
1 F 35 Anna
2 M 29 Joe
3 F 18 Maria
4 F 23 Natalie
偏好.query()
方法有很多好理由。
与布尔索引相比,它可能更短更清晰:
In [308]: df.query("20 <= age <= 30 and sex=='F'")
Out[308]:
sex age name
4 F 23 Natalie
In [309]: df[(df['age']>=20) & (df['age']<=30) & (df['sex']=='F')]
Out[309]:
sex age name
4 F 23 Natalie
您可以通过编程方式准备条件(查询):
In [315]: conditions = {'name':'Joe', 'sex':'M'}
In [316]: q = ' and '.join(['{}=="{}"'.format(k,v) for k,v in conditions.items()])
In [317]: q
Out[317]: 'name=="Joe" and sex=="M"'
In [318]: df.query(q)
Out[318]:
sex age name
2 M 29 Joe
.query()
方法
engine='python'
而不是默认engine='numexpr'
(更快)注意:Jeff(Pandas主要贡献者之一和Pandas核心团队成员)once said:
请注意,实际上.query实际上只是一个很好用的界面 它有非常具体的保证,这意味着它的意思是解析像 查询语言,而不是完全通用的界面。
答案 1 :(得分:1)
documentation中的其他一些有趣的用法。
当您拥有DataFrame集合时,query()的用例是 具有列名(或索引级别/名称)子集的对象 常见。您可以将相同的查询传递给两个帧而不必 指定您对查询感兴趣的帧 - (Source)
示例:
dfA = pd.DataFrame([[1,2,3], [4,5,6]], columns=["X", "Y", "Z"])
dfB = pd.DataFrame([[1,3,3], [4,1,6]], columns=["X", "Y", "Z"])
q = "(X > 3) & (Y < 10)"
print(dfA.query(q))
print(dfB.query(q))
X Y Z
1 4 5 6
X Y Z
1 4 1 6
df.query('a < b and b < c') # understand a bit more English
in
operator and not in
(alternative to isin
) df.query('a in [3, 4, 5]') # select rows whose value of column a is in [2, 3, 4]
in
/not in
) df.query('a == [1, 3, 5]') # select whose value of column a is in [1, 3, 5]
# equivalent to df.query('a in [1, 3, 5]')