使用 en_core_web_lg 模型以预期的方式对PROPN的POS标记不起作用。
POS标记使用 _md 模型更可预测。
给出(格式不正确的)句子: “ CK7,CK-20,GATA 3,PSA均为阴性。”
使用_lg模型时,“ CK7”被标记为NOUN(NNS)。
使用_md模型时,“ CK7”被标记为PROPN(NNP)。 这是正确的。
使用 _lg 模型并在句子中将“ CK7”替换为:
“ CK1”标记为PROPN
“ CK2”标记为PROPN
“ CK3”,“ CK4”标记为PROPN
“ CK5”标记为 ADJ
“ CK6”标记为PROPN
“ CK7”标记为名词
“ CK8”标记为PROPN
“ CK9”标记为 ADP
“ CK22”,“ CK222”,标记为PROPN
在使用 _md 模型并如上所述替换“ CK7”时,所有标签均被标记为PROPN,符合预期。
由于我要分析的句子中的最个,形成的差,我认为 _lg 模型的“更深层次” 依赖项解析会更好,只能通过 POS标记找到上述问题。
请告知:
非常感谢您。
答案 0 :(得分:1)
因此,这不是您问题的直接答案,但是,如果您使用的是生物医学数据,则可以尝试以下软件包: scispacy
它没有将CK-7标记为专有名词,但是它可以将许多这类术语作为实体处理,请参阅支持不同标记集的各种其他NER模型。它仍在开发中,您可能仍需要为数据添加特殊情况/例外,但我认为您会看到比标准spacy模型更好,更一致的结果。