我想用我自己的实体为NER训练一个空白模型。为此,我需要使用一个数据集,该数据集目前采用.csv格式,并具有以下格式的实体标签(我将为每个相关列提供一个示例行):
专栏:句子
价值:我想要苹果
列:数据
价值:['想要; @command; 2; 6','苹果'; @果实; 7; 13']
列:实体
价值:我@command @fruit
列:entity_types
价值:@ bot / @ command; @ bot / @ food / @ fruit
为了训练SpaCy的NER,我需要以下列形式将训练数据作为json:
TRAIN_DATA = [
('Who is Shaka Khan?', {
'entities': [(7, 17, 'PERSON')]
}),
('I like London and Berlin.', {
'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
})
]
Link to the relevant part in the SpaCy Docs
我试图找到一个解决方案,我可以将数据从csv重新格式化为SpaCy所需的格式,但我还没有成功。数据集确实包含所有必要的信息 - 文本字符串,实体名称,实体类型,实体偏移 - 但我根本不知道如何以正确的形式获取它们。
我很感激有关如何实现这一目标的任何和所有帮助!