Question

要按单列过滤数据框（df），如果我们考虑男性和女性的数据，我们可能会：

males = df[df[Gender]=='Male']

问题1 - 但是，如果数据跨越多年并且我只希望看到2014年的男性会怎么样？

在其他语言中，我可能会这样做：

if A = "Male" and if B = "2014" then

（除了我想这样做并在新的数据框对象中获取原始数据帧的子集）

问题2.如何在循环中执行此操作，并为每个独特的年份和性别集创建数据框对象（即：2013年男性，2013年女性，2014年男性和2014年女性的df

for y in year:

for g in gender:

df = .....

Answer 1

使用&运算符，不要忘记使用()包装子语句：

males = df[(df[Gender]=='Male') & (df[Year]==2014)]

使用for循环将数据框存储在dict中：

from collections import defaultdict
dic={}
for g in ['male', 'female']:
  dic[g]=defaultdict(dict)
  for y in [2013, 2014]:
    dic[g][y]=df[(df[Gender]==g) & (df[Year]==y)] #store the DataFrames to a dict of dict

编辑：

getDF的演示：

def getDF(dic, gender, year):
  return dic[gender][year]

print genDF(dic, 'male', 2014)

Answer 2

对于您希望用作过滤器并且依赖于多个列的更一般的布尔函数，您可以使用：

df = df[df[['col_1','col_2']].apply(lambda x: f(*x), axis=1)]

其中f是一个函数，它应用于col_1和col_2中的每对元素（x1，x2），并根据你想要的任何条件（x1，x2）返回True或False。

Answer 3

从pandas 0.13开始，这是最有效的方法。

df.query('Gender=="Male" & Year=="2014" ')

Answer 4

如果有人想知道什么是更快的过滤方法（可接受的答案或来自@redreamality的答案）：

import pandas as pd
import numpy as np

length = 100_000
df = pd.DataFrame()
df['Year'] = np.random.randint(1950, 2019, size=length)
df['Gender'] = np.random.choice(['Male', 'Female'], length)

%timeit df.query('Gender=="Male" & Year=="2014" ')
%timeit df[(df['Gender']=='Male') & (df['Year']==2014)]

100,000行的结果：

6.67 ms ± 557 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
5.54 ms ± 536 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

1000万行的结果：

326 ms ± 6.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
472 ms ± 25.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

因此，结果取决于大小和数据。在我的笔记本电脑上，query()在经过50万行之后变得更快。此外，Year=="2014"中的字符串搜索会产生不必要的开销（Year==2014更快）。

Answer 5

您可以使用query中的pandas创建自己的过滤器功能。在这里，您可以通过所有df参数过滤kwargs个结果。不要忘记添加一些验证器（kwargs过滤器）来为自己的df获得过滤器功能。

def filter(df, **kwargs):
    query_list = []
    for key in kwargs.keys():
        query_list.append(f'{key}=="{kwargs[key]}"')
    query = ' & '.join(query_list)
    return df.query(query)

Answer 6

您可以使用np.logical_and运算符替换&（或np.logical_or替换|）来过滤多列（多于两列）

如果您为多个字段提供目标值，那么这是一个执行此功能的示例函数。您可以将其调整为适用于不同类型的过滤或其他方式：

def filter_df(df, filter_values):
    """Filter df by matching targets for multiple columns.

    Args:
        df (pd.DataFrame): dataframe
        filter_values (None or dict): Dictionary of the form:
                `{<field>: <target_values_list>}`
            used to filter columns data.
    """
    import numpy as np
    if filter_values is None or not filter_values:
        return df
    return df[
        np.logical_and.reduce([
            df[column].isin(target_values) 
            for column, target_values in filter_values.items()
        ])
    ]

用法：

df = pd.DataFrame({'a': [1, 2, 3, 4], 'b': [1, 2, 3, 4]})

filter_df(df, {
    'a': [1, 2, 3],
    'b': [1, 2, 4]
})

如何按多列过滤pandas数据帧

6 个答案:

编辑：