流程的一部分需要应用字符串相似度算法。
此过程的结果将被存储并生成让我们说SS_Dataset。
根据此数据集,必须做出进一步的决定。
我的问题是:
我应该应用一个或多个字符串相似度算法来生成SS_Dataset吗?
计算“距离”和“声音相似”相似度的算法之间的任何比较?
一个算法族是否比另一个算法产生更准确的结果?组合是否可以提供更准确的相似性结果?
我的实现将包括以下库中的包
答案 0 :(得分:0)
哪个最好完全取决于你想要做什么。 Soundex和最小编辑距离(又名Levenshtein)被广泛使用,因为它们很容易理解。当你试图处理输入中的拼写错误或拼写错误时,它们很好。对不起,我无法超越“你必须亲自试验一下这些为你的特定目的而工作的程度。”