我正在使用带注释的docx文档语料库。注释使用注释进行。我从文档中提取了文本和注释,并在原始文本中创建了一些占位符,这些占位符显示了注释的开始位置和结束位置。一个例子是:
Lorem ipsum <|n|> dolor sit amet, consectetur <||n||> adipiscing elit.
其中n
是注释的id。稍后我会将文档分割成句子并使用正则表达式来查找哪个注释属于哪个句子。
现在,我使用python-spacy如下:
...
doc = self.nlp(unicode(self.raw_text))
for sentence in doc.sents:
#extract annotations and save the sentence
然而,在某些情况下,spacy上的句子边界检测会将注释开始的地方的文本分段,所以我最终会有很多不完整的句子或只是包含一个&#39;&#39;承租人。我的问题是,在某种程度上,我可以让spacy忽略注释标记吗?