我将spaCy用于NER任务。我的训练数据如下:
Total HDL Cholestrol <mulitple-spaces> Photometry <multiple-spaces> 12.3 <multiple-spaces> mg/dl <multiple-spaces> 0-45
(注意:单词之间有多个空格。)
我对每个单词的注释如下:
Total-BTest HDL-ITest Cholestrol-LTest <mulitple-spaces> Photometry-UTech <mulitple-spaces> 12.3-UVal <mulitple-spaces> mg/dl-UUnit <mulitple-spaces> 0-45-O
我的测试数据是否也应采用相同的格式(带有多个空格的单词),以便准确识别实体?
我用以下输入测试了训练有素的伪造模型:
Total Cholestrol <single-space> Photometry <single-space> 56.9 <single-space> mg/dl <single-space> 0-45
在上述情况下,我的模型能够正确识别实体。但是在以下情况下:
Total Cholestrol Photometry 56.9 mg/dl 0-45
(注意:单词之间不能有空格)
模型无法识别实体。
我的问题是,在训练过程中,spacy是否还会考虑单词之间的空白?
如果是这样,是否可以在训练集中删除多个空格?