python-3.x - 如何更快地比较两个大熊猫数据帧？

我有两个大熊猫数据框，每个框都有一个“ URL”列。两个数据框中较大的一个具有要处理的URL，而较小的一个具有已处理的URL。我想比较两个数据框并获取尚未处理的URL。

我正在使用dataframe.apply（）方法基于返回值'True'或'False'获取未处理的链接。

import pandas as pd
all_links = pd.read_csv('file1.csv')
processed_links = pd.read_csv('file2.csv')['URL'].tolist()

def fun(x):
    return x in processed_links

all_links['isDone'] = all_links['URL'].apply(fun)

如何更快地比较两个大熊猫数据帧？

0 个答案: