有人可以帮助我使用stanford核心nlp来标记java中的中文文本。 到目前为止,这是我的代码:
File file = new File("example.txt");
file.createNewFile();
FileWriter fileWriter = new FileWriter(file);
fileWriter.write("这是很好");
fileWriter.flush();
fileWriter.close();
FileReader fileReader = new FileReader(file);
InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");
CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);
String nextToken = "";
while((nextToken = chineseTokenizer.getNext())!=null)
System.out.println(nextToken);
但是我没有获得3个单独的标记,而是将整个句子作为单个标记。 有人可以帮助我吗?
答案 0 :(得分:1)
CHTBTokenizer
用于标记PTB格式的选区树。
对于普通的中文文本,您必须使用斯坦福大学提供的分段器。您可以在Stanford Word Segmenter页面上找到更多信息和下载链接。