防止令牌在斯坦福CoreNLP中占有空间

时间:2016-04-06 02:36:42

标签: nlp stanford-nlp tokenize

Stanford CoreNLP tokenizer中是否有选项可以防止令牌包含空格?

E.g。如果句子是"我的电话是617 1555-6644",子字符串" 617 1555"应该是两个不同的标记。

我知道选项normalizeSpace

  

normalizeSpace:令牌中是否有任何空格(电话号码,分数变成U + 00A0(不间断空格)。对于我们的大多数斯坦福NLP软件来说,关闭它是危险的,它假定没有空格在令牌中。

但我不想让代币包含任何空间,包括不间断的空间。

1 个答案:

答案 0 :(得分:1)

您可以尝试将tokenize.whitespace选项设置为true,但这将始终只在空格上进行标记。例如,“它是”将不再标记为“它”。