应用错误收集

防止令牌在斯坦福CoreNLP中占有空间

时间：2016-04-06 02:36:42

标签： nlp stanford-nlp tokenize

Stanford CoreNLP tokenizer中是否有选项可以防止令牌包含空格？

E.g。如果句子是＆＃34;我的电话是617 1555-6644＆＃34;，子字符串＆＃34; 617 1555＆＃34;应该是两个不同的标记。

我知道选项normalizeSpace：

normalizeSpace：令牌中是否有任何空格（电话号码，分数变成U + 00A0（不间断空格）。对于我们的大多数斯坦福NLP软件来说，关闭它是危险的，它假定没有空格在令牌中。

但我不想让代币包含任何空间，包括不间断的空间。

1 个答案:

答案 0 :(得分：1)

您可以尝试将tokenize.whitespace选项设置为true，但这将始终只在空格上进行标记。例如，“它是”将不再标记为“它”。