应用错误收集

时间：2015-03-24 10:10:04

标签： tokenize stanford-nlp

有一种方法可以为PTBTokenizer提供一组分隔字符来分割令牌吗？

我正在测试这个标记器的行为，我意识到有一些像垂直条'|'的字符tokenizer将子字符串分为两个标记，其他像标记生成器返回单个标记的斜杠或者泛滥。

答案 0 :(得分：1)

使用PTBTokenizer没有任何简单的方法，没有。您可以进行一些预处理和后期处理以获得您想要的内容，但有两个值得一提的问题：

与CoreNLP一起分发的所有模型都接受标准标记化器行为的培训。如果您更改对这些后续组件的输入进行标记化的方式，则无法保证这些组件可以预测。
如果您进行了足够的预处理和后处理（并且不使用＃1中提到的任何后续组件），那么只需窃取the PTBTokenizer implementation并编写您自己的组件就可能更简单。

（关于自定义撇号标记化行为有一个类似的问题：Stanford coreNLP - split words ignoring apostrophe。）