格式化SpaCy NER

时间:2017-11-22 21:14:12

标签: json format training-data named-entity-recognition spacy

我想用我自己的实体为NER训练一个空白模型。为此,我需要使用一个数据集,该数据集目前采用.csv格式,并具有以下格式的实体标签(我将为每个相关列提供一个示例行):

专栏:句子

价值:我想要苹果

列:数据

价值:['想要; @command; 2; 6','苹果'; @果实; 7; 13']

列:实体

价值:我@command @fruit

列:entity_types

价值:@ bot / @ command; @ bot / @ food / @ fruit

为了训练SpaCy的NER,我需要以下列形式将训练数据作为json:

    TRAIN_DATA = [
    ('Who is Shaka Khan?', {
        'entities': [(7, 17, 'PERSON')]
    }),
    ('I like London and Berlin.', {
        'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
    })
]

Link to the relevant part in the SpaCy Docs

我试图找到一个解决方案,我可以将数据从csv重新格式化为SpaCy所需的格式,但我还没有成功。数据集确实包含所有必要的信息 - 文本字符串,实体名称,实体类型,实体偏移 - 但我根本不知道如何以正确的形式获取它们。

我很感激有关如何实现这一目标的任何和所有帮助!

0 个答案:

没有答案