Stanford CoreNLP tokenizer中是否有选项可以防止令牌包含空格?
E.g。如果句子是"我的电话是617 1555-6644",子字符串" 617 1555"应该是两个不同的标记。
我知道选项normalizeSpace
:
normalizeSpace:令牌中是否有任何空格(电话号码,分数变成U + 00A0(不间断空格)。对于我们的大多数斯坦福NLP软件来说,关闭它是危险的,它假定没有空格在令牌中。
但我不想让代币包含任何空间,包括不间断的空间。
答案 0 :(得分:1)
您可以尝试将tokenize.whitespace
选项设置为true,但这将始终只在空格上进行标记。例如,“它是”将不再标记为“它”。