Question

我将spaCy用于NER任务。我的训练数据如下：

Total HDL Cholestrol <mulitple-spaces>        Photometry <multiple-spaces>          12.3 <multiple-spaces>        mg/dl <multiple-spaces>       0-45

（注意：单词之间有多个空格。）

我对每个单词的注释如下：

Total-BTest HDL-ITest Cholestrol-LTest <mulitple-spaces>       Photometry-UTech <mulitple-spaces>        12.3-UVal  <mulitple-spaces>       mg/dl-UUnit <mulitple-spaces>      0-45-O

我的测试数据是否也应采用相同的格式（带有多个空格的单词），以便准确识别实体？

我用以下输入测试了训练有素的伪造模型：

Total Cholestrol <single-space>       Photometry <single-space>         56.9 <single-space>        mg/dl <single-space>           0-45

在上述情况下，我的模型能够正确识别实体。但是在以下情况下：

Total Cholestrol Photometry 56.9 mg/dl 0-45

（注意：单词之间不能有空格）

模型无法识别实体。

我的问题是，在训练过程中，spacy是否还会考虑单词之间的空白？

如果是这样，是否可以在训练集中删除多个空格？

使用SpaCy提取实体时，单词之间的空格重要吗？

0 个答案: