我的代码如下:
import pandas as pd
root_path = "E:/job"
new_aa = "%s/new_aa.csv"%root_path
date_parser = lambda x: pd.datetime.strptime(x,'%Y-%m-%d')
for chunk in pd.read_csv(open("%s/new_a.csv"%root_path),
parse_dates = [0],
date_parser = date_parser,
chunksize=10):
group_user = chunk.groupby(['a','b']).size()
print(group_user)
以上代码的输出如下(有3列,a是时间,b是项目
number,最后一列是groupby size的输出:
a b
2014-11-28 Q64357551 3
2014-11-29 Q64357551 1
2014-11-29 Q64357551 3
2014-11-29 Q64357551 1
2014-12-07 Q64357551 1
2014-12-13 Q64357551 1
dtype: int64
a b
2014-11-18 Q64357551 1
2014-11-24 Q64377777 1
2014-11-29 Q64357551 1
2014-11-29 Q64357551 1
2014-11-29 Q64357551 2
2014-11-29 Q64357551 1
2014-11-29 Q64377777 1
2014-12-04 Q64357551 1
2014-12-18 Q64377777 1
dtype: int64
a b
2014-11-28 Q64357551 2
2014-11-29 Q64357551 2
2014-11-29 Q64357551 2
2014-12-04 Q64357551 2
2014-12-07 Q64357551 1
dtype: int64
我分组后有4个块,
但现在我想结束4块组输出。
我试着跟随:
groucontact = chunk.groupby(['a','b']).size()
df = pd.concat(group_user)
print(df)
但失败
TypeError: first argument must be iterable of pandas objects,
you passed an object of type "Series"
我可以做什么来连接4块组大小???