我使用stanfordCoreNLP库的标记生成器作为我项目的一部分。对于以下字符串
abc def *ghi
它提供以下令牌abc,def,*ghi
但是,我希望在abc,def,*ghi
中包含星号。如何自定义PBTTokenizer以实现此目的?
答案 0 :(得分:1)
请参阅我对此问题的回答:
How to set delimiters for PTB tokenizer?
您可以将标记生成器设置为仅在空格上进行标记:
(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");