改善ngram生成的方法?

时间:2013-07-11 13:01:47

标签: java performance n-gram

我知道这个名字有很多主题。我有一个生成ngrams的代码。但是想知道在处理数千个字符串时能否提高速度?

示例String =“abcdefghijkl1245ty789”

public static String[] ngrams(String s) {
        int len=12;
        String[] parts = s.split("(?!^)");
        String[] result = new String[parts.length - len + 1];
        for(int i = 0; i < parts.length - len + 1; i++) {
           StringBuilder sb = new StringBuilder();
           for(int k = 0; k < len; k++) {
               sb.append(parts[i+k]);
           }
           result[i] = sb.toString();
        }
        return result;
    }

上面的代码获取一个字符串,生成给定长度的ngrmas。在我的情况下是12。

1 个答案:

答案 0 :(得分:6)

不确定

public static String[] ngrams(String str, int length) {
    char[] chars = str.toCharArray();
    final int resultCount = chars.length - length + 1;
    String[] result = new String[resultCount];
    for (int i = 0; i < resultCount; i++) {
        result[i] = new String(chars, i, length);
    }
    return result;
}

我所做的改变:

  • 而不是通过正则表达式进行拆分,我使用String#toCharArray()进行单个数组复制,因此更快
  • 而不是从StringBuilder重建结果字符串,我使用了an appropriate String constructor,而且只使用了一个arraycopy
  • (性能不需要,但仍然)我更改了方法签名,以length作为测试原因的参数。您可以随意更改它 - 只需确保将方法从ngrams()重命名为ngrams12()或其他内容。

或完全放弃所有内容,并使用一种天真的方法与String#substring()进行类似的工作:

public static String[] ngramsSubstring(String str, int length) {
    final int resultCount = str.length() - length + 1;
    String[] result = new String[resultCount];
    for (int i = 0; i < resultCount; i++) {
        result[i] = str.substring(i, i+length);
    }
    return result;
}

顺便说一句,如果将来必须使用正则表达式,请尝试编译一次并重复使用它,而不是每次使用该方法时对其进行编译。例如,您的代码如下所示:

private static final Pattern EVERY_CHAR = Pattern.compile("(?!^)");

然后,在方法中,您将使用

而不是String#split
String[] parts = EVERY_CHAR.split(str);