Java中的智能字符串匹配可能吗?

时间:2015-04-13 09:05:23

标签: java string match equals contains

我目前正在编写一个简单的字符串匹配器,用于检查两个字符串是否相同。我想实现一种智能的方法,这样它可以识别大多数字符何时匹配,并有一些错误空间。

例如,单词" program"之间的比较和" prgoram"可以被视为匹配,因为它会智能地允许拼写错误。但是" horse"和" esroh"将被检测为不匹配。

我是否可以使用Java来实现这一目标,或者是使用大量不同检查编写自定义方法的情况?

2 个答案:

答案 0 :(得分:3)

您可以使用Levenshtein字符串距离等算法来实现此目的。该算法为您提供了将一个字符串更改为另一个字符串所需的步骤数,因此所需的步骤越少,字符串就越相似。

作为一个随时可用的库,我建议在Apache Commons中找到StringUtils。您可以查看here

答案 1 :(得分:0)

我知道它的老问题。但这可能有助于其他人。

使用" Levenshtein的编辑距离作为模糊字符串匹配" Java在Apache Commons中有一个库。但是如果您无法获得该库或可能需要其他开发目的(如android),这里是一个Levenshtein.java代码.. Details about Fuzzy String match

public class Levenshtein
{
public Levenshtein()
{
    super();
}

public double compare(final String s1, final String s2)
{
    double retval = 0.0;
    final int n = s1.length();
    final int m = s2.length();
    if (0 == n)
    {
        retval = m;
    }
    else if (0 == m)
    {
        retval = n;
    }
    else
    {
        retval = 1.0 - (compare(s1, n, s2, m) / (Math.max(n, m)));
    }
    return retval;
}

private double compare(final String s1, final int n, 
                       final String s2, final int m)
{
    int matrix[][] = new int[n + 1][m + 1];
    for (int i = 0; i <= n; i++)
    {
        matrix[i][0] = i;
    }
    for (int i = 0; i <= m; i++)
    {
        matrix[0][i] = i;
    }

    for (int i = 1; i <= n; i++)
    {
        int s1i = s1.codePointAt(i - 1);
        for (int j = 1; j <= m; j++)
        {
            int s2j = s2.codePointAt(j - 1);
            final int cost = s1i == s2j ? 0 : 1;
            matrix[i][j] = min3(matrix[i - 1][j] + 1, 
                                matrix[i][j - 1] + 1, 
                                matrix[i - 1][j - 1] + cost);
        }
    }
    return matrix[n][m];
}

private int min3(final int a, final int b, final int c)
{
    return Math.min(Math.min(a, b), c);
}
}

只需从您的主类调用,然后使用Double值进行进一步的工作。

Levenshtein x=new Levenshtein();
Double n=x.compare("My nam s jesmeen", "my name");