应用错误收集

时间：2010-04-21 13:01:49

标签： java algorithm string similarity

流程的一部分需要应用字符串相似度算法。

此过程的结果将被存储并生成让我们说SS_Dataset。

根据此数据集，必须做出进一步的决定。

我的问题是：

一个算法族是否比另一个算法产生更准确的结果？组合是否可以提供更准确的相似性结果？

我的实现将包括以下库中的包

答案 0 :(得分：0)

哪个最好完全取决于你想要做什么。 Soundex和最小编辑距离（又名Levenshtein）被广泛使用，因为它们很容易理解。当你试图处理输入中的拼写错误或拼写错误时，它们很好。对不起，我无法超越“你必须亲自试验一下这些为你的特定目的而工作的程度。”