Question

我的代码如下：

import pandas as pd
root_path = "E:/job"
new_aa = "%s/new_aa.csv"%root_path
date_parser = lambda x: pd.datetime.strptime(x,'%Y-%m-%d')
for chunk in pd.read_csv(open("%s/new_a.csv"%root_path),
            parse_dates = [0],
            date_parser = date_parser,
            chunksize=10):

    group_user = chunk.groupby(['a','b']).size()
    print(group_user)

以上代码的输出如下（有3列，a是时间，b是项目

number，最后一列是groupby size的输出：

a                    b       
2014-11-28       Q64357551    3
2014-11-29       Q64357551    1
2014-11-29       Q64357551    3
2014-11-29       Q64357551    1
2014-12-07       Q64357551    1
2014-12-13       Q64357551    1
dtype: int64

a               b       
2014-11-18  Q64357551    1
2014-11-24  Q64377777    1
2014-11-29  Q64357551    1
2014-11-29  Q64357551    1
2014-11-29  Q64357551    2
2014-11-29  Q64357551    1
2014-11-29  Q64377777    1
2014-12-04  Q64357551    1
2014-12-18  Q64377777    1
dtype: int64

a               b       
2014-11-28   Q64357551    2
2014-11-29   Q64357551    2
2014-11-29   Q64357551    2
2014-12-04   Q64357551    2
2014-12-07   Q64357551    1
dtype: int64

我分组后有4个块，

但现在我想结束4块组输出。

我试着跟随：

groucontact = chunk.groupby(['a','b']).size()

df = pd.concat(group_user)

print(df)

但失败

 TypeError: first argument must be iterable of pandas objects,

 you passed an object of type "Series"

我可以做什么来连接4块组大小???

python如何连接read_csv块的groupby输出？

0 个答案: