迭代组(Python pandas dataframe)

时间:2015-04-15 05:43:58

标签: python pandas iterator dataframe grouping

我想迭代按字符串或日期分组的组。

df = pd.DataFrame({'A': ['foo', 'bar'] * 3,
                   'B': ['me', 'you', 'me'] * 2,
                   'C': [5, 2, 3, 4, 6, 9]}) 
groups = df.groupby('A')

例如,在这段代码中,我有一个名为'foo'和'bar'的组,我可以使用它来循环它们;

for name, group in groups:
   print name

我的问题是我需要在这个循环中运行另一个循环,每次我需要调用不同的组。喜欢(假设群体的大小为n)

for name,group in groups:
   for name1 in range(name, name + 9):  # + 9 to get first 9 groups for every iteration`

因为,name是一个我无法做到的字符串。 简而言之,我只想要一种方法,通过该方法我可以按数字访问组,以便我可以轻松地调用所需的组进行计算。

这样的东西
groups = df.group('A')
for i in range(0,n):
    print group(i)[] + group(i+1)[]  

所以,如果我有以下组[g1,g2,g3,g4,g5],我想迭代地成对调用它们,如[g1,g2],[g2,g3],[g3,g4] ......并且每次都采取两组系列的交集。我正在寻找通过索引或其他方式调用组[g1,g2,... g5]的方法。这样我就可以将它们用于循环操作。目前,只有我知道呼叫组的方式是通过组的名称,如上面的示例'foo'和'bar'中所述。 我希望能够执行以下操作:

for name,group in groups-1:
   print gb.get_group(name)
   print gb.get_group(name+1)

我知道这可能是一个简单的问题,但我一直在努力争取这个部分。我将不胜感激任何帮助。

1 个答案:

答案 0 :(得分:8)

.groupby()对象具有.groups属性,该属性返回索引的Python字典。在这种情况下:

In [26]: df = pd.DataFrame({'A': ['foo', 'bar'] * 3,
   ....:                    'B': ['me', 'you', 'me'] * 2,
   ....:                    'C': [5, 2, 3, 4, 6, 9]})

In [27]: groups = df.groupby('A')

In [28]: groups.groups
Out[28]: {'bar': [1L, 3L, 5L], 'foo': [0L, 2L, 4L]}

您可以按如下方式迭代:

keys = groups.groups.keys()
for index in range(0, len(keys) - 1):
    g1 = df.ix[groups.groups[keys[index]]]
    g2 = df.ix[groups.groups[keys[index + 1]]]
    # Do something with g1, g2

但请记住,使用for循环迭代Pandas对象通常比向量操作慢。根据您的需要,如果需要快速,您可能需要尝试其他方法。