使用SpaCy提取实体时,单词之间的空格重要吗?

时间:2019-10-06 06:32:48

标签: nlp spacy ner

我将spaCy用于NER任务。我的训练数据如下:

Total HDL Cholestrol <mulitple-spaces>        Photometry <multiple-spaces>          12.3 <multiple-spaces>        mg/dl <multiple-spaces>       0-45

(注意:单词之间有多个空格。)

我对每个单词的注释如下:

Total-BTest HDL-ITest Cholestrol-LTest <mulitple-spaces>       Photometry-UTech <mulitple-spaces>        12.3-UVal  <mulitple-spaces>       mg/dl-UUnit <mulitple-spaces>      0-45-O

我的测试数据是否也应采用相同的格式(带有多个空格的单词),以便准确识别实体?

我用以下输入测试了训练有素的伪造模型:

Total Cholestrol <single-space>       Photometry <single-space>         56.9 <single-space>        mg/dl <single-space>           0-45

在上述情况下,我的模型能够正确识别实体。但是在以下情况下:

Total Cholestrol Photometry 56.9 mg/dl 0-45

(注意:单词之间不能有空格)

模型无法识别实体。

我的问题是,在训练过程中,spacy是否还会考虑单词之间的空白?

如果是这样,是否可以在训练集中删除多个空格?

0 个答案:

没有答案