我有一个看起来像这样的数据框:
>>> df = pd.DataFrame({'id':[1,1,1,1,1,2,2,2],'month':[1,1,2,2,2,1,2,2],'value1':[1,1,3,3,5,6,7,7], 'value2': [9,10,11,12,12,14,15,15], 'others': range(8)})
>>> df
id month value1 value2 others
0 1 1 1 9 0
1 1 1 1 10 1
2 1 2 3 11 2
3 1 2 3 12 3
4 1 2 5 12 4
5 2 1 6 14 5
6 2 2 7 15 6
7 2 2 7 15 7
我想执行一个自定义函数,其输入是在value1
和value2
上的一系列:
def get_most_common(srs):
"""
Returns the most common value in a list. For ties, it returns whatever
value collections.Counter.most_common(1) gives.
"""
from collections import Counter
x = list(srs)
my_counter = Counter(x)
most_common_value = my_counter.most_common(1)[0][0]
return most_common_value
预期结果:
value1 value2
id month
1 1 1 9
2 3 12
2 1 6 14
2 7 15
函数之所以这样编写,是因为最初我只需要将其应用于单个列(value1
),这样df = df.groupby(['id,'month'])['value1'].apply(get_most_common)
就可以工作。现在,我必须将其同时应用于两列。
尝试:
df = df.groupby(['id,'month'])[['value1','value2']].apply(get_most_common)
给出了:
id month
1 1 value1
2 value1
2 1 value1
2 value1
df = df.groupby(['id,'month'])[['value1','value2']].transform(get_most_common)
给予
value1 value2
0 1 9
1 1 9
2 3 12
3 3 12
4 3 12
5 6 14
6 7 15
7 7 15
applymap
不起作用。我在这里想念什么?
答案 0 :(得分:1)
使用GroupBy.agg
-它分别为每一列运行功能:
df = df.groupby(['id','month'])['value1','value2'].agg(get_most_common)
print (df)
value1 value2
id month
1 1 1 9
2 3 12
2 1 6 14
2 7 15