Question

我正在尝试构建一个自动数据清理逻辑， -替换最常用的单词（例如伦敦使用的95％） -带有一组拼写错误的单词（伦敦，伦敦，伦敦，伦敦，伦敦）

我能够使用模糊的模糊状态到达这里不确定如何继续进行

获得所有唯一词的频率
针对每种组合获取fuzz.ratio和fuzz.partial_ratio

随附的代码段

unique = pd.DataFrame(dataset['cities'].value_counts())
unique= unique.reset_index()
unique.columns = ['cities', 'count']
#print(unique)

fuzz_ratio = pd.DataFrame(columns=['a','b','ratio','partial_ratio'])


import itertools
for a, b in itertools.combinations(unique['cities'], 2):
    fuzz_ratio = fuzz_ratio.append([{'a':a, 'b':b, 'ratio':fuzz.ratio(a,b), 'partial_ratio':fuzz.partial_ratio(a,b)}], ignore_index=True)

我被困住了，现在不知道如何进行，任何人都可以帮忙-这也是一种更好的方法。我不想使用标准单词的词典（例如Bristol，Derby，London等）。

我只想使用出现频率最高的项目中的单词，即使最经常出现的元素的拼写错误。

熊猫数据框数据清理逻辑

0 个答案: