我正在尝试使用spacy标记句子。
文本中包含许多缩写和注释,并以句点结尾。同样,该文本是使用OCR获得的,有时句子中间会有换行符。在这些情况下,Spacy的表现似乎不太好。
我已经提取了一些示例,说明了如何分割这些句子。有什么方法可以训练spacy的句子标记器吗?
答案 0 :(得分:2)
Spacy有点不寻常,因为默认的句子分段来自于依赖解析器,因此您不能像这样直接训练句子边界检测器,但是您可以将自己的自定义组件添加到管道中或预先插入一些组件解析器将遵守的边界。请参阅示例中的文档:Spacy Sentence Segmentation
对于您正在描述的情况,也可以指定某个特定位置不是句子边界,但据我所知目前尚不可能。