我有一个很大的名单(字符串)列表,我必须互相检查,看是否有任何拼写错误。
为了做到这一点,我一直在对迭代列表使用pypi python-Levenshtein扩展,将错字视为与Levenshtein距离为1的比较。
我遇到了一个问题,例如'cat 1'和'cat 2',它们显然是〜不同的猫〜(不是拼写错误),但因为Levenshtein距离为1而被标记。
我已经尝试过手动停止检查字符串是否有任何数字,但由于列表很长,因此效率不高。
理想情况下,我正在寻找一种方法来指定如果唯一的字符更改是int(即'cat 1'vs'cat 2'),那么它不会被视为拼写错误
欢迎任何关于不同扩展/方法的建议,我最关心的是效率,如上所述 - 我有一个大清单