我有两个不等维的数据框A和B.我想创建一个数据框C,使其只包含A和B之间唯一的行。我试图遵循这个解决方案(excluding rows from a pandas dataframe based on column value and not index value),但无法使其工作。
这里的例子:
假设这是DF_A:
Star_ID Loc_ID pmRA pmDE Field Jmag Hmag
2M00000032+5737103 4264 0.000000 0.000000 N7789 10.905 10.635
2M00000068+5710233 4264 8.000000 -18.000000 N7789 10.664 10.132
2M00000222+5625359 4264 0.000000 0.000000 N7789 11.982 11.433
2M00000818+5634264 4264 0.000000 0.000000 N7789 12.501 11.892
2M00001242+5524391 4264 0.000000 -4.000000 N7789 12.091 11.482
这是DF_B:
2M00000032+5737103
2M00000068+5710233
2M00001242+5524391
因此,前两个和最后一个Star_ID在DF_A和DF_B之间是通用的。我想创建DF_C,以便:
DF_C:
Star_ID Loc_ID pmRA pmDE Field Jmag Hmag
2M00000222+5625359 4264 0.000000 0.000000 N7789 11.982 11.433
2M00000818+5634264 4264 0.000000 0.000000 N7789 12.501 11.892
答案 0 :(得分:5)
这对我有用:
In [7]:
df1[~df1.Star_ID.isin(df2.Star_ID)]
Out[7]:
Star_ID Loc_ID pmRA pmDE Field Jmag Hmag
2 2M00000222+5625359 4264 0 0 N7789 11.982 11.433
3 2M00000818+5634264 4264 0 0 N7789 12.501 11.892
[2 rows x 7 columns]
所以我们在这里做的是创建一个布尔掩码,我们要求两个数据帧中Star_ID
值的位置,但是使用~
我们NOT
有效的条件否定它。你链接的那个几乎是一回事,但我想你可能不理解语法?
修改强>
为了获得仅在df1中的值和仅在df2中的值,您可以这样做
unique_vals = df1[~df1.Star_ID.isin(df2.Star_ID)].append(df2[~df2.Star_ID.isin(df1.Star_ID)], ignore_index=True)
进一步修改
所以问题是csv有前导空格,这导致两个数据集中的所有值都是唯一的,要纠正这个,你需要这样做:
df1.Apogee_ID = df1.Apogee_ID.str.lstrip()