我正在寻找比较两个字符串的方法。 但不是简单的等于()。 我需要一些关于String的匹配方式的指标。 因此,例如(值是猜测不会被调整):
“汽车”和“汽车”重新开始1.0
“Car dog”和“Car”重演0.5
“坐”和“坐”重演0.45 等
基本上是Java的替代:difflib.sqeuencematcher(http://docs.python.org/2/library/difflib.html)。
我已经看过@ java-diff-utils,但我没有找到办法做到这一点......
答案 0 :(得分:4)
你应该看看Apache Commons Lang StringUtils
。特别是Levenshtein distance
答案 1 :(得分:2)
为了得到你所要求的近似值,你可以使用字符串的大小,然后使用StringUtils.remove你的匹配尝试,然后将原始大小减去剩余的大小除以原始大小。
public double matchString(final String stringToMatch, final String matchPattern) {
final int testSize = stringToMatch.length();
if (testSize == 0 && matchPattern.length() == 0) {
return 1.0;
} else if (testSize == 0) {
return 0.0;
}
final String remainderString = StringUtils.remove(stringToMatch, matchPattern);
final int remainderSize = remainderString.length();
final double result = (double) (testSize - remainderSize) / (double) testSize;
return result;
}
@Test
public void testMatchString() {
final double emptyResult = matchString("", "");
final double delta = 0.01;
Assert.assertEquals(1.0, emptyResult, delta);
final double emptyCarResult = matchString("", "Car");
Assert.assertEquals(0.0, emptyCarResult, delta);
final double dogCatResult = matchString("CarDog", "Car");
Assert.assertEquals(0.5, dogCatResult, delta);
final double carResult = matchString("Car", "Car");
Assert.assertEquals(1.0, carResult, delta);
final double carsCarResult = matchString("Cars", "Car");
Assert.assertEquals(0.75, carsCarResult, delta);
final double sittingSitResult = matchString("Sitting", "Sit");
Assert.assertEquals(0.4286, sittingSitResult, delta);
// no match since the 'S' in Sitting is uppercased and is not in sit.
// this can be fixed up lowercasing both the stringToMatch and matchPattern
// in matchString
final double sittingSit2Result = matchString("Sitting", "sit");
Assert.assertEquals(0.0, sittingSit2Result, delta);
// note the Sit match pattern matches two instences in 'Sit Sitting'
final double sittingSit3Result = matchString("Sitter Sitting", "Sit");
Assert.assertEquals(0.4286, sittingSit3Result, delta);
}