如何更快地比较两个大熊猫数据帧?

时间:2019-08-20 15:54:40

标签: python-3.x

我有两个大熊猫数据框,每个框都有一个“ URL”列。两个数据框中较大的一个具有要处理的URL,而较小的一个具有已处理的URL。我想比较两个数据框并获取尚未处理的URL。

我正在使用dataframe.apply()方法基于返回值'True'或'False'获取未处理的链接。

import pandas as pd
all_links = pd.read_csv('file1.csv')
processed_links = pd.read_csv('file2.csv')['URL'].tolist()

def fun(x):
    return x in processed_links

all_links['isDone'] = all_links['URL'].apply(fun)

0 个答案:

没有答案