应用错误收集

鲜为人知的字符串相似性指标

时间：2009-07-31 04:06:57

标签： algorithm language-agnostic string

这可能是一个难以回答的问题，但我正在研究一些事情，我想知道是否有人知道“鲜为人知”的字符串相似性度量标准（有关众所周知的例子，请参阅this page）。我去过维基百科，Sourceforge有一个名为Simmetrics的好a bunch of string metric algorithms库。有没有人做过一些研究或者发现了一些引起你注意的字符串算法并没有太多使用？

谢谢。

4 个答案:

答案 0 :(得分：2)

此page（LingPipe）提供了有关字符串比较的一些提示。它讨论了Damerau-Levenstein距离，Needlman-Wunsch算法，Jaccard距离，Jaro-Winkler距离，TF / IDF距离。距离被理解为两个字符串之间的相似性。

在页面的末尾，它提供了引用，它还提供了一个可以使用的Java实现（download & license）

答案 1 :(得分：1)

还有一类语音算法（例如Soundex）可能会添加到您的列表中。

答案 2 :(得分：1)

结帐http://us.php.net/manual/en/function.levenshtein.php 包括所有“另请参阅”参考和所有用户评论。

答案 3 :(得分：0)

SpSim（拼写相似性）是一种字符串相似性度量，旨在识别跨语言同源词（具有相同来源的词）。