我有两个大熊猫数据框,每个框都有一个“ URL”列。两个数据框中较大的一个具有要处理的URL,而较小的一个具有已处理的URL。我想比较两个数据框并获取尚未处理的URL。
我正在使用dataframe.apply()方法基于返回值'True'或'False'获取未处理的链接。
import pandas as pd
all_links = pd.read_csv('file1.csv')
processed_links = pd.read_csv('file2.csv')['URL'].tolist()
def fun(x):
return x in processed_links
all_links['isDone'] = all_links['URL'].apply(fun)