如何为PTB标记化器设置分隔符?

时间:2015-09-21 06:26:59

标签: nlp tokenize stanford-nlp stringtokenizer

我使用StanfordCore NLP Library作为我的项目。它使用PTB Tokenizer进行标记化。对于这样的声明 - go to room no. #2145

go to room no. *2145

tokenizer将#2145分成两个标记:#,2145。有没有办法设置tokenizer,以便它不会像分隔符一样识别#,*?

1 个答案:

答案 0 :(得分:1)

快速解决方案是使用此选项:

(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");

这将导致tokenizer在白色空间上进行标记。除了白色空间上的标记化之外,你还需要它吗?