比较两个数据源pandas和python

时间:2018-03-20 16:14:40

标签: python pandas cross-reference

我有一个小脚本加载相同的 csv文件两次

然后迭代一个并将其与另一个的所有条目进行比较。由于它们最初是从完全相同的来源读取的,因此我应该获得100%的匹配率。但我不会!

关于为什么会出现这种情况的任何想法?

import pandas as pd

_new = pd.read_csv('02 dump/reputation.csv', sep=';', float_precision='round_trip')
_data = pd.read_csv('00 data/reputation.csv', sep=';', float_precision='round_trip')


def confupdate():
    print("MATCHED")

def confnew():
    print("NOT MATCHED")



for a,b in zip(_new['LAT'].values, _new['LON'].values): 
    print(a, b)

    if a in _data['LAT'].values and b in _data.columns.values:

        confupdate()

    if a not in _data['LAT'].values or b not in _data.columns.values:

        confnew()

1 个答案:

答案 0 :(得分:0)

DataFrame的columns属性实际上是列的列表。您正在检查列中是否存在纬度和经度,而不是帧本身的内容。