我正在尝试针对自定义数据培训spaCy NER。我的训练数据的每个样本都包含从文档中提取的原始文本。我的每个样本都包含大约100多个单词。例如:
[
[
"Some long raw text here \n\n\n This text contains multiple line breaks...",
{
"entities": [
[
246,
264,
"entity_1"
...
]
]
}
]
]
我的问题是,为了培训NER,我正在将原始文档文本输入 该模型无需任何预处理。那么,spaCy是否执行一些数据预处理步骤,或者我需要执行 对原始数据执行以下预处理步骤,然后再将其馈送到 Spacy:
我的担心是,在我的文档中,如果我有“上下文”之类的字词, “上下文:”,“上下文”,“上下文1”。在我的模型词汇中 只使用单词“ Context”,那么就不会使用“ Context:”, 'context'和'context-1'作为OOV单词?并会产生词 这些单词为零的向量,就像其他OOV单词一样 在进模型之前?