我有一个数据帧unique_ids,每个time_step都有两列,指示每个时间步长两个不同ID的唯一值。
我想知道在每个时间步txId1的集合中有多少ID,但在txId2的集合中却没有。
我尝试过:
unique_ids['diff']=np.setdiff1d(unique_ids['txId1'], unique_ids['txId2'])
这给我 ValueError:操作数不能与形状(1754,)(6672,)
和for idx, row in unique_ids.iterrows():
unique_ids.loc[idx, 'diff'] = np.setdiff1d(row['txId1'],row['txId1'])
这给了我 ValueError:使用可迭代的设置时,必须具有相同的len键和值
这是什么工作:
np.setdiff1d(unique_ids.loc[1,'txId1'], unique_ids.loc[1,'txId2'])
,这就是为什么我不理解为何上述选项不起作用的原因。
数据框没有NaN值。