我尝试过布尔数组和.isin结构的不同组合,但我的熊猫不够强大。
如果我有以下示例数据帧:
In[1]: import pandas as pd
exampledf = pd.DataFrame({ 'factor1' : ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd'],
'factor2' : ['e', 'e', 'e', 'e', 'f', 'f', 'f', 'f'],
'numeric' : [1., 2., 3., 4., 5., 6., 7., 8.] })
我需要传递一个factor1,factor2对任意长度的列表,以返回具有这些因子组合的数据帧的子集。
例如:
In[2]: def factorfilter(df, factorlist):
# code goes here
# returns a dataframe
factorfilter(exampledf, [['a', 'e'], ['c', 'f']])
Out[2]: factor1 factor2 numeric
0 a e 1
6 f f 7
(如果有更好的方法来设置它而不是列表,我很满意,这就是发生在我身上的事情,很容易产生并传递给函数。)
答案 0 :(得分:2)
您可以使用多索引(索引关闭多个列)。我想到了两种从示例模式构建索引的方法。
import pandas as pd
index = pd.MultiIndex.from_product([list('abcd'),list('ef')],
names=['factor1','factor2'])
或
factor1 = list('abcdabcd')
factor2 = list('eeeeffff')
index = pd.MultIndex.from_tuples(list(zip(factor1, factor2)),
names=['factor1', 'factor2'])
由此,您可以通过
创建多索引 DataFramenumerics = list(range(1,9))
df = pd.DataFrame({'numeric': numerics}, index=index)
df 输出
numeric
factor1 factor2
a e 1
f 2
b e 3
f 4
c e 5
f 6
d e 7
f 8
[8 rows x 1 columns]
然后,您可以通过将元组列表传递给 ix 属性来检索索引的子集。
subdf = df.ix[[('a','e'), ('c','f')]]
subdf 输出
numeric
factor1 factor2
a e 1
c f 6
[2 rows x 1 columns]