有没有办法过滤python-levenshtein扩展名的变化?

时间:2018-06-13 00:02:22

标签: python levenshtein-distance

我有一个很大的名单(字符串)列表,我必须互相检查,看是否有任何拼写错误。

为了做到这一点,我一直在对迭代列表使用pypi python-Levenshtein扩展,将错字视为与Levenshtein距离为1的比较。

我遇到了一个问题,例如'cat 1'和'cat 2',它们显然是〜不同的猫〜(不是拼写错误),但因为Levenshtein距离为1而被标记。

我已经尝试过手动停止检查字符串是否有任何数字,但由于列表很长,因此效率不高。

理想情况下,我正在寻找一种方法来指定如果唯一的字符更改是int(即'cat 1'vs'cat 2'),那么它不会被视为拼写错误

欢迎任何关于不同扩展/方法的建议,我最关心的是效率,如上所述 - 我有一个大清单

0 个答案:

没有答案