基于元组的子集熊猫数据帧

时间:2018-10-14 15:37:50

标签: python python-3.x pandas dataframe indexing

我有一个像这样的数据集

Firstnames = ['AA','BB','CC','AA','CC']
Lastnames = ['P', 'Q', 'R', 'P', 'R']
values = [10, 13, 3, 22, 45]

df = pd.DataFrame(data = list(zip(Firstnames,Lastnames,values)), \
                  columns=['Firstnames','Lastnames','values'])
df

    Firstnames  Lastnames   values
0   AA          P           10
1   BB          Q           13
2   CC          R           3
3   AA          P           22
4   CC          R           45

我有一个这样的元组数组

lst = array([('AA', 'P'), ('BB', 'Q')])

我想对df进行子集设置,例如Firstname == 'AA' & Lastnames == 'P'Firstname == 'BB' & Lastnames == 'Q'

我可以手动执行此操作,但是我的数组很大,我想以编程方式进行操作

我的预期输出将是

Firstnames  Lastnames   values
AA          P           10
AA          P           22
BB          Q           13

3 个答案:

答案 0 :(得分:3)

agg + isin

由于元组是可哈希的,因此您可以使用isin并将 aggregated 值与last进行比较。直接使用lst和列表而不是np.array有帮助。

>>> lst = [('AA', 'P'), 
           ('BB', 'Q')]

>>> mask = df[['Firstnames', 'Lastnames']].agg(tuple, 1).isin(lst)
>>> df[mask]

    Firstnames  Lastnames   values
0   AA          P           10
1   BB          Q           13
3   AA          P           22

如果需要,可以按名称sort_values

>>> df[mask].sort_values(by=['Firstnames', 'Lastnames'])

    Firstnames  Lastnames   values
0   AA          P           10
3   AA          P           22
1   BB          Q           13

pd.concat

对于较小的pd.concat,您还可以使用列表理解lst

>>> pd.concat([df[df.Firstnames.eq(a) & df.Lastnames.eq(b)] for a,b in lst])

    Firstnames  Lastnames   values
0   AA          P           10
3   AA          P           22
1   BB          Q           13

时间:

lst,大df

df = pd.concat([df]*10000).reset_index(drop=True)

%timeit mask = df[['Firstnames', 'Lastnames']].agg(tuple, 1).isin(lst); df[mask].sort_values(by=['Firstnames', 'Lastnames'])
942 ms ± 71.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit pd.concat([df[df.Firstnames.eq(a) & df.Lastnames.eq(b)] for a,b in lst])
16.2 ms ± 355 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

对于大lst和小df

c = list(map(''.join, itertools.product(string.ascii_uppercase, string.ascii_uppercase)))
lst = [(a,b) for a,b in zip(c, list(string.ascii_uppercase)*26)]
df = pd.DataFrame({'Firstnames': c, 'Lastnames': list(string.ascii_uppercase)*26, 'values': 10})

%timeit mask = df[['Firstnames', 'Lastnames']].agg(tuple, 1).isin(lst); df[mask].sort_values(by=['Firstnames', 'Lastnames'])
15.1 ms ± 301 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit pd.concat([df[df.Firstnames.eq(a) & df.Lastnames.eq(b)] for a,b in lst])
781 ms ± 33.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

答案 1 :(得分:2)

pd.Index.isin

将选定的序列转换为MultiIndex对象,然后将pd.Index.isin与元组列表一起使用:

lst = [('AA', 'P'), ('BB', 'Q')]
df_masked = df[df.set_index(['Firstnames', 'Lastnames']).index.isin(lst)]

性能基准化

# Python 3.6.5, Pandas v0.23.0

lst = [('AA', 'P'), ('BB', 'Q')]
df = pd.concat([df]*10000).reset_index()

%timeit df[df.set_index(['Firstnames', 'Lastnames']).index.isin(lst)]  # 23.4 ms

答案 2 :(得分:1)

您可以在此处利用const didBlurSubscription = this.props.navigation.addListener( 'willBlur', payload => { console.debug('didBlur', payload); } ); // Remove the listener when you are done didBlurSubscription.remove(); 广播来获得出色的解决方案。在庞大的DataFrame上,您可能会开始发现性能下降,此时应使用numpy。您应该避免强制转换为pd.Index.isin,并针对所有大小的DataFrame使用这种类型的比较。

设置

tuple

lst = np.array([('AA', 'P'), ('BB', 'Q')])

idx = (df.values[:, :2] == lst[:, None]).any(axis=(0, -1))
df[idx]

性能

  Firstnames Lastnames  values
0         AA         P      10
1         BB         Q      13
3         AA         P      22