Spacy NER的培训数据清理

时间:2019-07-23 17:51:21

标签: spacy ner

我正在尝试针对自定义数据培训spaCy NER。我的训练数据的每个样本都包含从文档中提取的原始文本。我的每个样本都包含大约100多个单词。例如:

[
  [
    "Some long raw text here \n\n\n This text contains multiple line breaks...",
    {
      "entities": [
        [
          246,
          264,
          "entity_1"
        ...
        ]
      ]
    }
  ]
]

  1. 我的问题是,为了培训NER,我正在将原始文档文本输入 该模型无需任何预处理。那么,spaCy是否执行一些数据预处理步骤,或者我需要执行 对原始数据执行以下预处理步骤,然后再将其馈送到 Spacy:

    • 删除停用词
    • 删除标点符号
    • 小写字母
    • 合法化
    • 空格和换行符的标准化
  2. 我的担心是,在我的文档中,如果我有“上下文”之类的字词, “上下文:”,“上下文”,“上下文1”。在我的模型词汇中 只使用单词“ Context”,那么就不会使用“ Context:”, 'context'和'context-1'作为OOV单词?并会产生词 这些单词为零的向量,就像其他OOV单词一样 在进模型之前?

  3. 如果spaCy对训练数据执行某种预处理,它会执行哪种预处理?
  4. 是否可以登录并在训练时将某些特征向量输入到特定样本的模型中?

0 个答案:

没有答案