我有两个csv数据帧,而我想做的是找到两个数据帧中未包含的唯一登录ID。我面临的问题是以下代码可以运行,但df3返回df1的所有行和列。我怀疑df1中的某一行存在问题,但这是我需要您帮助的地方,以确定可能引起此问题的原因。
df1中大约有24000行,df2中大约有8500行。当我得到df3时,它从df1返回所有24000行,我知道这是不正确的,因为两者之间存在通用登录名。请注意,df2中的登录名位于“用户号”列下。我的代码如下:
import pandas as pd
import numpy as np
import csv
fileLocationDf1 = "corpscore.csv"
fileLocationDf2 = "ENFI.csv"
createDf1 = pd.read_csv(fileLocationDf1)
createDf2 = pd.read_csv(fileLocationDf2, low_memory = False)
df3 = createDf1[~createDf1['login'].isin(createDf2['User Number'])]
df3.to_excel('Results.xlsx', sheet_name = 'Results')
答案 0 :(得分:2)
检查您的数据。可能是您的数据类型不同。
请参见示例:
df1 = pd.DataFrame({'A': [1,2,3]})
df2 = pd.DataFrame({'A': ['2','5','6']})
df1[~df1['A'].isin(df2['A'])]
# A
#0 1
#2 3
还有一个:
df2 = pd.DataFrame({'A': ['2','5a','6a'],
'B': list('def'),
'C': [1.7,0.3,2.8]})
df1[~df1['A'].isin(df2['A'])]
# A
#0 1
#1 2
#2 3
这里发生的是.isin()
试图将.isin()
中的 整个 系列转换为与{{1}您将其称为-然后进行比较。