关于字符串相似度量标准(Java)的建议。距离,听起来像或组合?

时间:2010-04-21 13:01:49

标签: java algorithm string similarity

流程的一部分需要应用字符串相似度算法。

此过程的结果将被存储并生成让我们说SS_Dataset。

根据此数据集,必须做出进一步的决定。

我的问题是:

  • 我应该应用一个或多个字符串相似度算法来生成SS_Dataset吗?

  • 计算“距离”和“声音相似”相似度的算法之间的任何比较?

一个算法族是否比另一个算法产生更准确的结果?组合是否可以提供更准确的相似性结果?

  • 您能推荐与您合作过的实施吗?

我的实现将包括以下库中的包

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

1 个答案:

答案 0 :(得分:0)

哪个最好完全取决于你想要做什么。 Soundex和最小编辑距离(又名Levenshtein)被广泛使用,因为它们很容易理解。当你试图处理输入中的拼写错误或拼写错误时,它们很好。对不起,我无法超越“你必须亲自试验一下这些为你的特定目的而工作的程度。”