Question

这在我的机器学习项目中似乎有多种用途，它可以是重复计数，也可以用作特征提取，幸运的是可以用于数值和分类，Ridit Analysys

我的数据似乎重复很多，我想检查一下。这是我的数据

No   feature_1    feature_2   feature_3
1.          67           45          56 
2.          67           40          56
3.          67           40          51

这就是我想要的

No   feature_1    feature_2   feature_3    duplication_1    duplication_2   duplication_3
1.          67           45          56                3                1               2
2.          67           40          56                3                2               2
3.          67           40          51                3                2               1

我所做的是

df1 = df.groupby(['feature_1']).size().reset_index()
df1.columns = ['customer_id', 'duplication_1']
df = df.merge(df1, on='customer_id', how='left')
df2 = df.groupby(['feature_2']).size().reset_index()
df2.columns = ['customer_id', 'duplication_2']
df = df.merge(df2, on='customer_id', how='left')
df3 = df.groupby(['feature_3']).size().reset_index()
df3.columns = ['customer_id', 'duplication_3']
df = df.merge(df3, on='customer_id', how='left')

但是我正在寻找更好的替代方法以实现更快的方式，特别是如果我们拥有大量功能

Answer 1

对每列使用map和value_counts或transform：

for i, x in enumerate(df.columns):
    df['duplication_{}'.format(i + 1)] = df[x].map(df[x].value_counts())
    #alternative
    #df['duplication_{}'.format(i + 1)] = df.groupby(x)[x].transform('size')
print (df)
     feature_1  feature_2  feature_3  duplication_1  duplication_2  \
No                                                                   
1.0         67         45         56              3              1   
2.0         67         40         56              3              2   
3.0         67         40         51              3              2   

     duplication_3  
No                  
1.0              2  
2.0              2  
3.0              1

如何分别计算熊猫上的特征重复（或Ridit特征工程）

1 个答案: