我目前正在编写一个简单的字符串匹配器,用于检查两个字符串是否相同。我想实现一种智能的方法,这样它可以识别大多数字符何时匹配,并有一些错误空间。
例如,单词" program"之间的比较和" prgoram"可以被视为匹配,因为它会智能地允许拼写错误。但是" horse"和" esroh"将被检测为不匹配。
我是否可以使用Java来实现这一目标,或者是使用大量不同检查编写自定义方法的情况?
答案 0 :(得分:3)
您可以使用Levenshtein字符串距离等算法来实现此目的。该算法为您提供了将一个字符串更改为另一个字符串所需的步骤数,因此所需的步骤越少,字符串就越相似。
作为一个随时可用的库,我建议在Apache Commons中找到StringUtils
。您可以查看here。
答案 1 :(得分:0)
我知道它的老问题。但这可能有助于其他人。
使用" Levenshtein的编辑距离作为模糊字符串匹配" Java在Apache Commons中有一个库。但是如果您无法获得该库或可能需要其他开发目的(如android),这里是一个Levenshtein.java代码.. Details about Fuzzy String match
public class Levenshtein
{
public Levenshtein()
{
super();
}
public double compare(final String s1, final String s2)
{
double retval = 0.0;
final int n = s1.length();
final int m = s2.length();
if (0 == n)
{
retval = m;
}
else if (0 == m)
{
retval = n;
}
else
{
retval = 1.0 - (compare(s1, n, s2, m) / (Math.max(n, m)));
}
return retval;
}
private double compare(final String s1, final int n,
final String s2, final int m)
{
int matrix[][] = new int[n + 1][m + 1];
for (int i = 0; i <= n; i++)
{
matrix[i][0] = i;
}
for (int i = 0; i <= m; i++)
{
matrix[0][i] = i;
}
for (int i = 1; i <= n; i++)
{
int s1i = s1.codePointAt(i - 1);
for (int j = 1; j <= m; j++)
{
int s2j = s2.codePointAt(j - 1);
final int cost = s1i == s2j ? 0 : 1;
matrix[i][j] = min3(matrix[i - 1][j] + 1,
matrix[i][j - 1] + 1,
matrix[i - 1][j - 1] + cost);
}
}
return matrix[n][m];
}
private int min3(final int a, final int b, final int c)
{
return Math.min(Math.min(a, b), c);
}
}
只需从您的主类调用,然后使用Double值进行进一步的工作。
Levenshtein x=new Levenshtein();
Double n=x.compare("My nam s jesmeen", "my name");