Question

有人可以帮助我使用stanford核心nlp来标记java中的中文文本。到目前为止，这是我的代码：

File file = new File("example.txt");
   file.createNewFile();
   FileWriter fileWriter = new FileWriter(file);
   fileWriter.write("这是很好");
   fileWriter.flush();
   fileWriter.close();
   FileReader fileReader = new FileReader(file);

   InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");

   CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);

   String nextToken = "";
   while((nextToken = chineseTokenizer.getNext())!=null)
       System.out.println(nextToken);

但是我没有获得3个单独的标记，而是将整个句子作为单个标记。有人可以帮助我吗？

Answer 1

CHTBTokenizer用于标记PTB格式的选区树。

对于普通的中文文本，您必须使用斯坦福大学提供的分段器。您可以在Stanford Word Segmenter页面上找到更多信息和下载链接。

中文tokenizer斯坦福核心nlp

1 个答案: