中文tokenizer斯坦福核心nlp

时间:2015-05-29 10:24:46

标签: nlp tokenize stanford-nlp

有人可以帮助我使用stanford核心nlp来标记java中的中文文本。 到目前为止,这是我的代码:

File file = new File("example.txt");
   file.createNewFile();
   FileWriter fileWriter = new FileWriter(file);
   fileWriter.write("这是很好");
   fileWriter.flush();
   fileWriter.close();
   FileReader fileReader = new FileReader(file);

   InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");

   CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);

   String nextToken = "";
   while((nextToken = chineseTokenizer.getNext())!=null)
       System.out.println(nextToken);

但是我没有获得3个单独的标记,而是将整个句子作为单个标记。 有人可以帮助我吗?

1 个答案:

答案 0 :(得分:1)

CHTBTokenizer用于标记PTB格式的选区树。

对于普通的中文文本,您必须使用斯坦福大学提供的分段器。您可以在Stanford Word Segmenter页面上找到更多信息和下载链接。