我正在使用Spacy对句子进行标记化,并且我知道传递给标记器的文本将始终是单个句子。
在我的标记化规则中,我希望在文本之前附加非最后的句点(“。”),因此我更新了后缀规则以删除按句点分割的规则(此缩写正确)。 / p>
但是,唯一的例外是最后一个期间应拆分为单独的令牌。
我看到最新版本的Spacy允许您事后拆分令牌,但是我更喜欢在Tokenizer本身中执行此操作,以便其他管道组件处理正确的令牌化。
答案 0 :(得分:0)
这是在分词器之后使用一些后处理的一种解决方案:
doc.char_span
生成跨度,并使用span.merge
将跨度合并为单个令牌。如果有人知道如何在令牌生成器中执行此操作,将是一个很好的选择。