熊猫数据框数据清理逻辑

时间:2020-05-12 15:02:28

标签: python data-cleaning

我正在尝试构建一个自动数据清理逻辑, -替换最常用的单词(例如伦敦使用的95%) -带有一组拼写错误的单词(伦敦,伦敦,伦敦,伦敦,伦敦)

我能够使用模糊的模糊状态到达这里 不确定如何继续进行

  • 获得所有唯一词的频率
  • 针对每种组合获取fuzz.ratio和fuzz.partial_ratio

随附的代码段

unique = pd.DataFrame(dataset['cities'].value_counts())
unique= unique.reset_index()
unique.columns = ['cities', 'count']
#print(unique)

fuzz_ratio = pd.DataFrame(columns=['a','b','ratio','partial_ratio'])


import itertools
for a, b in itertools.combinations(unique['cities'], 2):
    fuzz_ratio = fuzz_ratio.append([{'a':a, 'b':b, 'ratio':fuzz.ratio(a,b), 'partial_ratio':fuzz.partial_ratio(a,b)}], ignore_index=True)

我被困住了,现在不知道如何进行,任何人都可以帮忙-这也是一种更好的方法。我不想使用标准单词的词典(例如Bristol,Derby,London等)。

我只想使用出现频率最高的项目中的单词,即使最经常出现的元素的拼写错误。

0 个答案:

没有答案