我有一个包含一些列的数据集,我用它来分组数据库。还有两列;一个有dtype对象,另一个是数字。我想找到每列的每个组的唯一值的数量,以及最常见的值。
# Typo in code next line removed
df = pd.DataFrame({'A': ['foo', 'foo', 'foo', 'foo', 'bar', 'bar','bar','bar',], 'C_object':['str1', 'str2', 'str2', 'str2','str1', 'str1', 'str1', 'str2'], 'D_num': [10, 2, 2, 2, 10, 10, 10, 2]})
d = df.groupby('A')
g = d['C_object', 'D_num'].transform(unique)
答案 0 :(得分:1)
试试这个:
import pandas as pd
df = pd.DataFrame({'A': ['foo', 'foo', 'foo', 'foo', 'bar', 'bar','bar','bar',], 'C_object':['str1', 'str2', 'str2', 'str2','str1', 'str1', 'str1', 'str2'], 'D_num': [10, 2, 2, 2, 10, 10, 10, 2]})
df2=pd.DataFrame({'C_object_len_unique': df.groupby('A')['C_object'].apply(lambda x: len(x.unique())), \
'C_object_most_common': df.groupby('A')['C_object'].agg(lambda x:x.value_counts().index[0]), \
'D_num_len_unique' : df.groupby('A')['D_num'].apply(lambda x: len(x.unique())), \
'D_num_most_common': df.groupby('A')['D_num'].agg(lambda x:x.value_counts().index[0]) \
}).reset_index()
print df2