Python:将数据与现有名称匹配

时间:2018-03-21 06:14:37

标签: python similarity

当用户尝试使用搜索栏时,可能会出现很多拼写错误。例如,我有一个关于移动品牌名称的数据集。

nokia, nakia, nokea,mokia
samsung, samsumg, zamsung
sony, SONY, sonii, ソニー
htc, hTc, hta

我已经将它们设置在不同的类别中,并使用fuzzywuzzy来计算两个字符串之间的相似度得分。

fuzz.ratio("sony", "ソニー")  #0
fuzz.ratio("sony", "sany")   #75

“ソニー”实际上是日语中的“sony”,但它无法识别它。如何设置它以使它们具有高相似性?

另外,如果有一个名为“somy”的新字符串,是否有可能将其分类为“sony”?提前谢谢!

0 个答案:

没有答案