我想知道是否可以在NER任务中标记标记可能带有多个(重叠)标签的文本?
我想学习汽车制造,但是,我需要将其分类为私人或商用汽车。
例如:
text_0 = 'The new model of Mercedes is a great family car which also offers a space for home pets in the rear'
text_1 = 'It has been know for decades that Mercedes vehicle are very reliable for public transportation'
我需要提取汽车制造商的信息(这很容易,应该给“ Mercedes”打个招呼),但是,我也想知道在哪种情况下提到了汽车制造商。因此,IE系统应输出:
text_0 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'private'}
text_1 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'commercial'}
潜在的解决方案
我可以注释大型语料库以训练统计模型。因此,基本上,我可以训练两个单独的NER模型,一个模型识别代币的汽车制造商,第二个模型标记同一标记是私人/商业的。
问题在于如何组合这两个NER模型,因此它们的输出不会覆盖实体标签。在spaCy中有一种整齐的方法吗?
否则,请建议如何向学习汽车制造商的NER任务添加另一个属性(私人/商业)。