当用户尝试使用搜索栏时,可能会出现很多拼写错误。例如,我有一个关于移动品牌名称的数据集。
nokia, nakia, nokea,mokia
samsung, samsumg, zamsung
sony, SONY, sonii, ソニー
htc, hTc, hta
我已经将它们设置在不同的类别中,并使用fuzzywuzzy来计算两个字符串之间的相似度得分。
fuzz.ratio("sony", "ソニー") #0
fuzz.ratio("sony", "sany") #75
“ソニー”实际上是日语中的“sony”,但它无法识别它。如何设置它以使它们具有高相似性?
另外,如果有一个名为“somy”的新字符串,是否有可能将其分类为“sony”?提前谢谢!