在python系列中找到匹配的标题

时间:2018-07-12 06:36:22

标签: python pandas matching

我有两个数据帧,其中包含两个带有动漫标题的系列,我想合并这些数据帧,但是语法明显不同,因此我想使用带有模糊匹配的序列,但出现内存错误。

所以我想以一种有效的方式做到这一点。

我已经尝试过:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

compare = pd.MultiIndex.from_product([animeka['TITRE ORIGINAL'],
                                      anime['name']]).to_series()

def metrics(tup):
    return pd.Series([fuzz.ratio(*tup),
                      fuzz.token_sort_ratio(*tup)],
                     ['ratio', 'token'])

compare.apply(metrics)

第一个数据帧

enter image description here

第二个

enter image description here

所以我会这样做df = pd.merge(anime, animeka, left_on ="name", right_on = "TITRE ORIGINAL")

我希望这很清楚。

0 个答案:

没有答案