Question

我有一个如下数据框

    name    item 
0   Jack    A
1   Sarah   B
2   Ross    A
3   Sean    C
4   Jack    C
5   Ross    B

我想做的是制作一个字典，将人们与他们相关的产品联系起来。

{Jack: [1, 0, 1], Sarah: [0, 1, 0], Ross:[1, 1, 0], Sean:[0, 0, 1]}

我认为应该使用pandas.groupby

轻松完成此操作

我尝试遍历数据帧，但是我有> 1E7项，并且循环看起来效率不高。

Answer 1

检查crosstab和to_dict

pd.crosstab(df.item,df.name).to_dict('l')
{'Jack': [1, 0, 1], 'Ross': [1, 1, 0], 'Sarah': [0, 1, 0], 'Sean': [0, 0, 1]}

另一个有趣的选择是使用str.get_dummies：

# if you need counts 
df.set_index('item')['name'].str.get_dummies().sum(level=0).to_dict('l')
# if you want to record boolean indicators 
df.set_index('item')['name'].str.get_dummies().max(level=0).to_dict('l')
# {'Jack': [1, 0, 1], 'Ross': [1, 1, 0], 'Sarah': [0, 1, 0], 'Sean': [0, 0, 1]}

在pandas.groupby中读取值

1 个答案: