Java Lucene NGramTokenizer

时间:2012-11-17 18:50:28

标签: java lucene tokenize n-gram

我正在尝试将字符串标记为ngrams。奇怪的是在NGramTokenizer的文档中我没有看到一个方法会返回被标记化的单个ngrams。实际上我只在NGramTokenizer类中看到两个返回String Objects的方法。

以下是我的代码:

Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
  1. 被标记化的ngrams在哪里?
  2. 如何在字符串/单词中获得输出?
  3. 我希望我的输出如下:这是,a,测试,字符串,这是,是一个测试,测试字符串,这是一个,是一个测试,一个测试字符串。

4 个答案:

答案 0 :(得分:18)

我不认为你会找到你想找到返回String的方法。您需要处理Attribute s。

应该像以下一样工作:

Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);
gramTokenizer.reset();

while (gramTokenizer.incrementToken()) {
    String token = charTermAttribute.toString();
    //Do something
}
gramTokenizer.end();
gramTokenizer.close();

如果需要在那之后重复使用,请确保重置()Tokenizer。


按照评论标记字词的分组,而不是字符:

Reader reader = new StringReader("This is a test string");
TokenStream tokenizer = new StandardTokenizer(Version.LUCENE_36, reader);
tokenizer = new ShingleFilter(tokenizer, 1, 3);
CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class);

while (tokenizer.incrementToken()) {
    String token = charTermAttribute.toString();
    //Do something
}

答案 1 :(得分:1)

对于最新版本的Lucene(4.2.1),这是一个干净的代码。在执行此代码之前,您必须导入2个jar文件:

  • lucene的核 - 4.2.1.jar
  • 的lucene-analuzers-共4.2.1.jar

http://www.apache.org/dyn/closer.cgi/lucene/java/4.2.1

查找这些文件
//LUCENE 4.2.1
Reader reader = new StringReader("This is a test string");      
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);

CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);

while (gramTokenizer.incrementToken()) {
    String token = charTermAttribute.toString();
    System.out.println(token);
}

答案 2 :(得分:0)

如果没有创建测试程序,我猜想incrementToken()会返回下一个将成为ngrams之一的标记。

例如,使用字符串'a b c d'的ngram长度为1-3,NGramTokenizer可以返回:

a
a b
a b c
b
b c
b c d
c
c d
d

其中'a','a b'等是由此产生的ngrams。

[编辑]

您可能还想查看Querying lucene tokens without indexing,因为它谈到了偷看令牌流。

答案 3 :(得分:0)

package ngramalgoimpl; import java.util。*;

public class ngr {

public static List<String> n_grams(int n, String str) {
    List<String> n_grams = new ArrayList<String>();
    String[] words = str.split(" ");
    for (int i = 0; i < words.length - n + 1; i++)
        n_grams.add(concatination(words, i, i+n));
    return n_grams;
}
 /*stringBuilder is used to cancatinate mutable sequence of characters*/
public static String concatination(String[] words, int start, int end) {
    StringBuilder sb = new StringBuilder();
    for (int i = start; i < end; i++)
        sb.append((i > start ? " " : "") + words[i]);
    return sb.toString();
}

public static void main(String[] args) {
    for (int n = 1; n <= 3; n++) {
        for (String ngram : n_grams(n, "This is my car."))
            System.out.println(ngram);
        System.out.println();
    }
}

}