更改令牌化行为

时间:2017-07-04 16:59:24

标签: stanford-nlp

我在项目中使用Stanford Tokenizer,我无法理解和修复特定模式的标记化。

根据我的配置,如果我将字符串标记为:

"Hello World>"

我会正确地得到:

hello
world
>

但是对于字符串: "<Hello World>" 我得到了:

<hello world>

我希望收到:

<
hello
world
>

是否可以配置令牌化程序,以便不将此特定模式视为单个令牌?

这些是我为音调器设置的当前选项: -lowerCase -options "untokenizable=allKeep,americanize=true,normalizeOtherBrackets=false,normalizeParentheses=false"

非常感谢帮助。

0 个答案:

没有答案