应用错误收集

时间：2019-03-22 13:13:38

标签： tokenize spacy

我正在使用Spacy对句子进行标记化，并且我知道传递给标记器的文本将始终是单个句子。

在我的标记化规则中，我希望在文本之前附加非最后的句点（“。”），因此我更新了后缀规则以删除按句点分割的规则（此缩写正确）。 / p>

但是，唯一的例外是最后一个期间应拆分为单独的令牌。

我看到最新版本的Spacy允许您事后拆分令牌，但是我更喜欢在Tokenizer本身中执行此操作，以便其他管道组件处理正确的令牌化。

答案 0 :(得分：0)

这是在分词器之后使用一些后处理的一种解决方案：

如果有人知道如何在令牌生成器中执行此操作，将是一个很好的选择。