鉴于我有原始文本和doc
但缺少空白数据,因此我想创建spaCy words
。
from spacy.tokens import Doc
doc = Doc(nlp.vocab, words=words, spaces=spaces)
如何正确执行此操作,以确保有关空白的信息不会丢失? 我拥有的数据示例:
data= {'text': 'This is just a test sample.', 'words': ['This', 'is', 'just', 'a', 'test', 'sample', '.']}
答案 0 :(得分:0)
根据我们在评论中的讨论,我建议您执行以下任一操作:
首选路线:
在Spacy管道中替换您要改进的那些元素。如果您出于某种原因不信任POS标记器,请使用更适合目的的自定义解析器代替。可选地,您可以使用Prodigy之类的工具使用您自己的注释数据来训练现有POS标记器模型。
快速而肮脏的路线: