在Python中使用spaCy进行序列多标签处理

时间:2019-03-10 10:09:06

标签: python spacy ner

我想知道是否可以在NER任务中标记标记可能带有多个(重叠)标签的文本?

我想学习汽车制造,但是,我需要将其分类为私人或商用汽车。

例如:

text_0 = 'The new model of Mercedes is a great family car which also offers a space for home pets in the rear'

text_1 = 'It has been know for decades that Mercedes vehicle are very reliable for public transportation'

我需要提取汽车制造商的信息(这很容易,应该给“ Mercedes”打个招呼),但是,我也想知道在哪种情况下提到了汽车制造商。因此,IE系统应输出:

text_0 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'private'}

text_1 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'commercial'}

潜在的解决方案

我可以注释大型语料库以训练统计模型。因此,基本上,我可以训练两个单独的NER模型,一个模型识别代币的汽车制造商,第二个模型标记同一标记是私人/商业的。

问题在于如何组合这两个NER模型,因此它们的输出不会覆盖实体标签。在spaCy中有一种整齐的方法吗?

否则,请建议如何向学习汽车制造商的NER任务添加另一个属性(私人/商业)。

0 个答案:

没有答案