stanford nlp tokenizer

时间:2012-10-11 20:06:45

标签: tokenize stanford-nlp

如何使用stanford解析器对java类中的字符串进行标记?

我只能找到documentProcessor和PTBTokenizer从外部文件中获取文本的示例。

 DocumentPreprocessor dp = new DocumentPreprocessor("hello.txt");
   for (List sentence : dp) {
    System.out.println(sentence);
  }
  // option #2: By token

   PTBTokenizer ptbt = new PTBTokenizer(new FileReader("hello.txt"),
          new CoreLabelTokenFactory(), "");
  for (CoreLabel label; ptbt.hasNext(); ) {
    label = (CoreLabel) ptbt.next();
    System.out.println(label);
  }

感谢。

1 个答案:

答案 0 :(得分:6)

PTBTokenizer构造函数接受java.io.Reader,然后您可以使用StringReader来解析您的文本