我正在解析一个数据集,其中人们使用尖括号只是作为标点符号,而且永远不会(永远)发生实际的标记。
是否有改变解析器功能的方法,而不是调用
"<snickers in background>"
单个令牌,我们可以获得
"<", "snickers", etc?
这似乎是一个相当简单的问题,但我无法在文档中找到简单的修复程序或查看代码。
提前致谢!
PS是否有其他角色以我应该注意的方式行事?
答案 0 :(得分:0)
没有一种简单的方法可以做到这一点。在tokenizer中有一些选项可以自定义引号,破折号和括号转义的处理,但总体而言,tokenizer有许多启发式规则,其中大部分都无法在命令行中更改。
您有两个主要选择:
-tokenizerFactory
-tokenized
当然,如果定期令牌不像Penn Treebank惯例那样被标记化,解析准确性将会受到影响。