以下是一个例子:
A
0 V1
1 V1
2 V2
3 v4
4 v4
5 v7
我想最终得到类似的东西:
A
0 V1
1 V1
2 np.NaN
3 v4
4 v4
5 np.NaN
基本上它会是这样的:
df.A[df.A.value_counts() < 2] = np.NaN
答案 0 :(得分:3)
使用value_counts
,然后按isin
检查索引值:
a = df.A.value_counts()
m = df.A.isin(a.index[a<2])
print (m)
0 False
1 False
2 True
3 False
4 False
5 True
Name: A, dtype: bool
df.loc[m, 'A'] = np.NaN
print (df)
A
0 V1
1 V1
2 NaN
3 v4
4 v4
5 NaN
答案 1 :(得分:2)
使用groupby
+ transform
,然后使用loc
索引 -
df.loc[df.groupby('A').A.transform('count').lt(2), 'A'] = np.nan
df
A
0 V1
1 V1
2 NaN
3 v4
4 v4
5 NaN