我正在尝试构建一个自动数据清理逻辑, -替换最常用的单词(例如伦敦使用的95%) -带有一组拼写错误的单词(伦敦,伦敦,伦敦,伦敦,伦敦)
我能够使用模糊的模糊状态到达这里 不确定如何继续进行
随附的代码段
unique = pd.DataFrame(dataset['cities'].value_counts())
unique= unique.reset_index()
unique.columns = ['cities', 'count']
#print(unique)
fuzz_ratio = pd.DataFrame(columns=['a','b','ratio','partial_ratio'])
import itertools
for a, b in itertools.combinations(unique['cities'], 2):
fuzz_ratio = fuzz_ratio.append([{'a':a, 'b':b, 'ratio':fuzz.ratio(a,b), 'partial_ratio':fuzz.partial_ratio(a,b)}], ignore_index=True)
我被困住了,现在不知道如何进行,任何人都可以帮忙-这也是一种更好的方法。我不想使用标准单词的词典(例如Bristol,Derby,London等)。
我只想使用出现频率最高的项目中的单词,即使最经常出现的元素的拼写错误。