我已经浏览了所有互联网和熊猫文档。
我有2个pandas DataFrame(带有字符串值) 他们实际上有14列和1667行。
我需要比较它们,并返回较长的值,而不是较短的值
df1
0 X
1 Y
2 Z
df2
0 X
1 Y
结果:
df_diff
2 Z
我尝试了不同的合并和联接,也许我只是愚蠢的,但无法使其正常工作。 这是比较2个数据帧并返回新数据帧中所有非相等行的函数的一部分。 如果您有整个功能的解决方案,请随时将其发布为答案。
答案 0 :(得分:0)
这项工作可以吗?
set(df_1['columname']) - set(df_2['columnname'])
如果您希望完整的数据集有所不同,可以执行以下操作:
set(df_1.values.flatten()) - set(df_2.values.flatten())