使用Spacy en_core_web_lg模型的POS标记不一致

时间:2019-04-07 09:06:10

标签: nlp spacy pos-tagger dependency-parsing

  • 使用 en_core_web_lg 模型以预期的方式对PROPN的POS标记不起作用

  • POS标记使用 _md 模型更可预测。

给出(格式不正确的)句子: “ CK7,CK-20,GATA 3,PSA均为阴性。”

使用_lg模型时,“ CK7”被标记为NOUN(NNS)。

使用_md模型时,“ CK7”被标记为PROPN(NNP)。 这是正确的。

使用 _lg 模型并在句子中将“ CK7”替换为:

  • “ CK1”标记为PROPN

  • “ CK2”标记为PROPN

  • “ CK3”,“ CK4”标记为PROPN

  • “ CK5”标记为 ADJ

  • “ CK6”标记为PROPN

  • “ CK7”标记为名词

  • “ CK8”标记为PROPN

  • “ CK9”标记为 ADP

  • “ CK22”,“ CK222”,标记为PROPN

在使用 _md 模型并如上所述替换“ CK7”时,所有标签均被标记为PROPN,符合预期

由于我要分析的句子中的个,形成的,我认为 _lg 模型的“更深层次” 依赖项解析会更好,只能通过 POS标记找到上述问题。

请告知:

  1. 在使用en_core_web_lg模型时如何处理违反直觉的POS标签?
  2. 哪种模型最适合解析依存格式的句子?

非常感谢您。

1 个答案:

答案 0 :(得分:1)

因此,这不是您问题的直接答案,但是,如果您使用的是生物医学数据,则可以尝试以下软件包: scispacy

它没有将CK-7标记为专有名词,但是它可以将许多这类术语作为实体处理,请参阅支持不同标记集的各种其他NER模型。它仍在开发中,您可能仍需要为数据添加特殊情况/例外,但我认为您会看到比标准spacy模型更好,更一致的结果。