Spacy分词器可处理句子中的最后一段

时间:2019-03-22 13:13:38

标签: tokenize spacy

我正在使用Spacy对句子进行标记化,并且我知道传递给标记器的文本将始终是单个句子。

在我的标记化规则中,我希望在文本之前附加非最后的句点(“。”),因此我更新了后缀规则以删除按句点分割的规则(此缩写正确)。 / p>

但是,唯一的例外是最后一个期间应拆分为单独的令牌。

我看到最新版本的Spacy允许您事后拆分令牌,但是我更喜欢在Tokenizer本身中执行此操作,以便其他管道组件处理正确的令牌化。

1 个答案:

答案 0 :(得分:0)

这是在分词器之后使用一些后处理的一种解决方案:

  • 我添加了“。”后缀,以便始终将句点分成自己的令牌。
  • 然后我使用正则表达式查找非最后期限,并使用doc.char_span生成跨度,并使用span.merge将跨度合并为单个令牌。

如果有人知道如何在令牌生成器中执行此操作,将是一个很好的选择。