Question

我使用StanfordCore NLP Library作为我的项目。它使用PTB Tokenizer进行标记化。对于这样的声明 - go to room no. #2145或

go to room no. *2145

tokenizer将＃2145分成两个标记：＃，2145。有没有办法设置tokenizer，以便它不会像分隔符一样识别＃，*？

Answer 1

快速解决方案是使用此选项：

(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");

这将导致tokenizer在白色空间上进行标记。除了白色空间上的标记化之外，你还需要它吗？