斯坦福PTBTokenizer令牌的分割分隔符

时间:2015-03-24 10:10:04

标签: tokenize stanford-nlp

有一种方法可以为PTBTokenizer提供一组分隔字符来分割令牌吗?

我正在测试这个标记器的行为,我意识到有一些像垂直条'|'的字符tokenizer将子字符串分为两个标记,其他像标记生成器返回单个标记的斜杠或者泛滥。

1 个答案:

答案 0 :(得分:1)

使用PTBTokenizer没有任何简单的方法,没有。您可以进行一些预处理和后期处理以获得您想要的内容,但有两个值得一提的问题:

  1. 与CoreNLP一起分发的所有模型都接受标准标记化器行为的培训。如果您更改对这些后续组件的输入进行标记化的方式,则无法保证这些组件可以预测。
  2. 如果您进行了足够的预处理和后处理(并且不使用#1中提到的任何后续组件),那么只需窃取the PTBTokenizer implementation并编写您自己的组件就可能更简单。
  3. (关于自定义撇号标记化行为有一个类似的问题:Stanford coreNLP - split words ignoring apostrophe。)