我使用StanfordCore NLP Library作为我的项目。它使用PTB Tokenizer进行标记化。对于这样的声明 -
go to room no. #2145
或
go to room no. *2145
tokenizer将#2145分成两个标记:#,2145。有没有办法设置tokenizer,以便它不会像分隔符一样识别#,*?
答案 0 :(得分:1)
快速解决方案是使用此选项:
(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");
这将导致tokenizer在白色空间上进行标记。除了白色空间上的标记化之外,你还需要它吗?