我有一个非常大的数据集,看起来像
df = pd.DataFrame({'B': ['john smith', 'john doe', 'adam smith', 'john doe', np.nan], 'C': ['indiana jones', 'duck mc duck', 'batman','duck mc duck',np.nan]})
df
Out[173]:
B C
0 john smith indiana jones
1 john doe duck mc duck
2 adam smith batman
3 john doe duck mc duck
4 NaN NaN
我需要创建一个ID变量,这对于每个B-C组合都是唯一的。也就是说,输出应该是
B C ID
0 john smith indiana jones 1
1 john doe duck mc duck 2
2 adam smith batman 3
3 john doe duck mc duck 2
4 NaN NaN 0
我实际上并不关心索引是否从零开始,以及缺失列的值是0还是任何其他数字。我只是想要一些快速的东西,它不会占用大量内存并且可以快速排序。 我用:
df['combined_id']=(df.B+df.C).rank(method='dense')
但输出为float64
并占用大量内存。我们可以做得更好吗?
谢谢!
答案 0 :(得分:5)
我认为您可以使用factorize
:
df['combined_id'] = pd.factorize(df.B+df.C)[0]
print df
B C combined_id
0 john smith indiana jones 0
1 john doe duck mc duck 1
2 adam smith batman 2
3 john doe duck mc duck 1
4 NaN NaN -1
答案 1 :(得分:2)
让jezrael的答案更加通用(如果列不是字符串怎么办?),你可以使用这个紧凑的函数:
def make_identifier(df):
str_id = df.apply(lambda x: '_'.join(map(str, x)), axis=1)
return pd.factorize(str_id)[0]
df['combined_id'] = make_identifier(df[['B','C']])
答案 2 :(得分:0)
使用pd.factorize(column)[0]会很有帮助