模糊匹配python中的日语字符串?

时间:2015-12-30 05:02:49

标签: python-2.7

这个问题困扰了我一整天。

我有两个日语字符串,我想在Python2.7中模糊匹配。目前我正在使用fuzzywuzzy和

jpnStr = "日本語".encode('utf-8')
jpnList = ["日本語1".encode('utf-8'),"日本語2".encode('utf-8'),"日本語3".encode('utf-8')]
bestmatch = process.extractOne(jpnStr, jpnList)

但最终的最佳匹配始终是

("日本語1",0)

我将如何解决这个问题,还是有一种我在这里完全不见的最佳做法?对不起,如果我听起来很沮丧,这是一段时间的障碍。提前谢谢。

1 个答案:

答案 0 :(得分:3)

好的,我不确定这有多大帮助,但我找到了解决方法。

我发现我可以使用fuzzywuzzy对日语字符串进行模糊匹配。

  1. 首先,您将获得Unicoded日语字符串,即"日本语です"
  2. 然后将其作为ascii文本输出到文本文件中。输出看起来像" / uf34 / ufeac / uewa3 /..."等等。
  3. 然后你阅读文本文件并比较日语字符串的ascii表示:" / uf34 / ufeac / uewa3 /"互相攻击。这给出了一个可行的模糊模糊匹配等级。
  4. 它可能不是一种理想的方法,但它的工作原理相当准确。希望这有助于某人。