替换数据框中特定列中的唯一值

时间:2018-03-10 18:25:31

标签: python pandas dataframe

我的数据框如下所示:

col1  col2  col3
Aba   xxx   yyy
bab   bhh   jjj
ccc   kkk   lll
Aba   xxx   yyy
ccc   kkk   jjj

目前我正在替换每列的所有唯一值,例如:

col1中:Abaa0取代,baba1取代,ccca2取代它出现在列中的哪个位置。

col2类似:xxx替换为b0bhh替换为b1等。

简而言之,第一列开始使用a0,a1,a2,a3第二个b0,b1,b2,b3,第三列c0,c1,c2等替换唯一值 - 使用这个简单的单行,

import string
df = list(string.ascii_lowercase)[:len(df.columns)] + df.apply(lambda x: pd.factorize(x)[0]).astype(str)

但我想像上面的方法那样替换那些具有多个唯一值(pandas中的nunique()函数)的列小于假设50的列,并且列的其余部分的值可以保持不变。

使用上面的代码寻找解决方案,可以对其进行更改以包含此目标。我的数据框有数百万行且超过20列。

由于

1 个答案:

答案 0 :(得分:2)

我认为需要:

print (df)
  col1 col2 col3
0  Aba  xxx  jjj
1  Aba  bhh  jjj
2  ccc  kkk  jjj
3  Aba  xxx  yyy
4  ccc  kkk  jjj

#check column for number of unique values
m = df.nunique() < 3
print (m)
col1     True
col2    False
col3     True
dtype: bool

import string
#first select all possible codes and then only by condition
c = np.array(list(string.ascii_lowercase))[:len(df.columns)][m]

#apply solution only for columns by condition
df.loc[:, m] = c + df.loc[:, m].apply(lambda x: pd.factorize(x)[0]).astype(str)
print (df)
  col1 col2 col3
0   a0  xxx   c0
1   a0  bhh   c0
2   a1  kkk   c0
3   a0  xxx   c1
4   a1  kkk   c0