我有一个字符串要与另一组字符串进行比较,需要得到这两个字母相等的得分(百分比)(例如:一对一相同:100%,完全不同:0%)。但问题是这些字符串是由日文字符组成的(日语句子没有空格)。有时它会包含一些数字字符(例如:キロシカインスプレー2mg)。
执行此操作最合适的方法是什么?
答案 0 :(得分:2)
日文字符仍然是Unicode。
使用标准字符串比较算法之一,例如Levenshtein distance。
答案 1 :(得分:0)
除了其他评论之外,如果你计划将汉字的等价性计算到其平假名,那么事情就会变得非常复杂。在比较之前,您可能希望将字符串拼写为例如romaji或代表性令牌。