这在我的机器学习项目中似乎有多种用途,它可以是重复计数,也可以用作特征提取,幸运的是可以用于数值和分类,Ridit Analysys
我的数据似乎重复很多,我想检查一下。这是我的数据
No feature_1 feature_2 feature_3
1. 67 45 56
2. 67 40 56
3. 67 40 51
这就是我想要的
No feature_1 feature_2 feature_3 duplication_1 duplication_2 duplication_3
1. 67 45 56 3 1 2
2. 67 40 56 3 2 2
3. 67 40 51 3 2 1
我所做的是
df1 = df.groupby(['feature_1']).size().reset_index()
df1.columns = ['customer_id', 'duplication_1']
df = df.merge(df1, on='customer_id', how='left')
df2 = df.groupby(['feature_2']).size().reset_index()
df2.columns = ['customer_id', 'duplication_2']
df = df.merge(df2, on='customer_id', how='left')
df3 = df.groupby(['feature_3']).size().reset_index()
df3.columns = ['customer_id', 'duplication_3']
df = df.merge(df3, on='customer_id', how='left')
但是我正在寻找更好的替代方法以实现更快的方式,特别是如果我们拥有大量功能
答案 0 :(得分:1)
对每列使用map
和value_counts
或transform
:
for i, x in enumerate(df.columns):
df['duplication_{}'.format(i + 1)] = df[x].map(df[x].value_counts())
#alternative
#df['duplication_{}'.format(i + 1)] = df.groupby(x)[x].transform('size')
print (df)
feature_1 feature_2 feature_3 duplication_1 duplication_2 \
No
1.0 67 45 56 3 1
2.0 67 40 56 3 2
3.0 67 40 51 3 2
duplication_3
No
1.0 2
2.0 2
3.0 1