Python Pandas:检查列表中的项是否在df索引中

时间:2015-01-19 11:17:03

标签: python pandas dataframe

我有一个数据框:

data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
    'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
    'wins': ['11102', '8425', '12%', '15%', '11%', '6%', '20%', '4%'],
    'losses': ['5222', '8888', '6%', '1%', '5%', '30%', '6%', '12%'],
    }
football = pd.DataFrame(data, index=['a','b','c','d','e','f','g','ssa'], columns=['year', 'team', 'wins', 'losses'])

我也有一个清单:

fixed_cats = ['d','g','ssa']

我想检查来自fixed_cats列表的项是否在df索引的底部找到。

这是我失败的尝试:

football.loc[football.index[-len(fixed_cats):].isin(fixed_cats)]

由于某种原因,这会返回带有索引['b','c']的df。

预期产出:

指数为'g'和'ssa'

的df

1 个答案:

答案 0 :(得分:2)

你在第一次尝试中看到['b','c']的原因是从内部isin返回的是一个布尔索引[False, True, True],你从一开始就应用于df ,你需要再次将它重新应用到最后3行:

In [21]:

fixed_cats = ['d','g','ssa']
football[-len(fixed_cats):][football.index[-len(fixed_cats):].isin(fixed_cats)]
Out[21]:
     year   team wins losses
g    2011  Lions  20%     6%
ssa  2012  Lions   4%    12%

In [22]:

football.index[-len(fixed_cats):].isin(fixed_cats)
Out[22]:
array([False,  True,  True], dtype=bool)

所以上面的布尔索引需要再次应用于最后3行而不是整个df,这就是你正在做的事情