我想从df1
中提取df2
中不存在的那些行(标识是索引)。对于下面的示例,我希望返回df1
中的第一行。不幸的是,结果是空的。
import pandas as pd
df1 = pd.DataFrame({
'level-0': ['a', 'a', 'a', 'a', 'a', 'a'],
'level-1': ['s2', 's2', 's2', 's2', 's2', 's2'],
'level-2': ['1', '1', '1', '1', '1', '1'],
'level-3': ['19', '20', '21', '22', '23', '24'],
'level-4': ['HRB', 'HRB', 'HRB', 'HRB', 'HRB', 'HRB'],
'name': ['a', 'b', 'c', 'd', 'e', 'f']
})
df1 = df1.set_index(['level-0', 'level-1', 'level-2', 'level-3', 'level-4'], drop=False)
df2 = pd.DataFrame({
'level-0': ['a', 'a', 'a', 'a', 'a', 'b'],
'level-1': ['s2', 's2', 's2', 's2', 's2', 's2'],
'level-2': ['1', '1', '1', '1', '1', '1'],
'level-3': ['19', '20', '21', '22', '23', '24'],
'level-4': ['HRB', 'HRB', 'HRB', 'HRB', 'HRB', 'HRB']
})
df2 = df2.set_index(['level-0', 'level-1', 'level-2', 'level-3', 'level-4'], drop=False)
# all indices that are in df1 but not in df2
df_unknown = df1[~df1.index.isin(df2.index)]
print df_unknown
选择有什么问题?
更新
我弄清楚出了什么问题。数据框是从Excel文件中读取的,有些系列被解释为int
,而要比较的数据框的列已经转换为str
。这导致了不同的指数。
答案 0 :(得分:1)
set_index
不存在,因此df1
和df2
在调用后仍然具有其数字索引。做任何一件事
df2.set_index(..., inplace=True)
或
df2 = df2.set_index(...)
你会看到,到目前为止,大熊猫中的大多数方法都是这样工作的。