我有两个数据帧,其中包含两个带有动漫标题的系列,我想合并这些数据帧,但是语法明显不同,因此我想使用带有模糊匹配的序列,但出现内存错误。
所以我想以一种有效的方式做到这一点。
我已经尝试过:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
compare = pd.MultiIndex.from_product([animeka['TITRE ORIGINAL'],
anime['name']]).to_series()
def metrics(tup):
return pd.Series([fuzz.ratio(*tup),
fuzz.token_sort_ratio(*tup)],
['ratio', 'token'])
compare.apply(metrics)
第一个数据帧
第二个
所以我会这样做df = pd.merge(anime, animeka, left_on ="name", right_on = "TITRE ORIGINAL")
我希望这很清楚。