我在项目中使用Stanford Tokenizer,我无法理解和修复特定模式的标记化。
根据我的配置,如果我将字符串标记为:
"Hello World>"
我会正确地得到:
hello
world
>
但是对于字符串:
"<Hello World>"
我得到了:
<hello world>
我希望收到:
<
hello
world
>
是否可以配置令牌化程序,以便不将此特定模式视为单个令牌?
这些是我为音调器设置的当前选项:
-lowerCase -options "untokenizable=allKeep,americanize=true,normalizeOtherBrackets=false,normalizeParentheses=false"
非常感谢帮助。