应用错误收集

我有两个数据帧，其中包含两个带有动漫标题的系列，我想合并这些数据帧，但是语法明显不同，因此我想使用带有模糊匹配的序列，但出现内存错误。

所以我想以一种有效的方式做到这一点。

我已经尝试过：

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

compare = pd.MultiIndex.from_product([animeka['TITRE ORIGINAL'],
                                      anime['name']]).to_series()

def metrics(tup):
    return pd.Series([fuzz.ratio(*tup),
                      fuzz.token_sort_ratio(*tup)],
                     ['ratio', 'token'])

compare.apply(metrics)

第一个数据帧

第二个

所以我会这样做df = pd.merge(anime, animeka, left_on ="name", right_on = "TITRE ORIGINAL")

我希望这很清楚。

在python系列中找到匹配的标题

0 个答案: