我有一个熊猫数据框df。 “ group_ids”列由numpy数组(每行)组成。我正在尝试创建一个新列,该列将在numpy数组'id_list'中查找group_ids的出现次数。
以下代码有效,尽管对于大型数据集而言速度较慢:
df['sum_binary'] = ''
for i in range(0,len(df)):
df['sum_binary'][i] = sum(np.where(np.in1d(df['group_ids'][i], id_list),1,0))
我该如何矢量化?我尝试使用pandas.where,但没有成功,例如:
df['1'] = 1
df['sum_binary'] = (df['1']).where(np.in1d(df['group_ids'], id_list),0)