使用自定义语料库使用NLTK或Stanford NER命名实体识别

时间:2016-01-13 08:36:47

标签: nlp stanford-nlp named-entity-recognition

我正在尝试使用自定义NE(命名实体)字典在 Indian 中训练NER模型以进行分块。我分别提到NLTK和Stanford NER:

  1. NLTK
  2. 我发现nltk.chunk.named_entity.NEChunkParser nechunkparser能够在自定义语料库上进行训练。但是,培训语料库的格式未在文档或源代码的注释中指定。

    在哪里可以找到NLTK中NER自定义语料库的一些指南?

    1. Stanford NER
    2. 根据question,斯坦福NER的常见问题解答提供了如何训练定制NER模型的方向。

      主要担心之一是默认的斯坦福NER不支持印度人。那么将印度NER语料库提供给模型是否可行?

1 个答案:

答案 0 :(得分:1)

您的培训语料库必须位于var role = context.Roles.SingleOrDefault(m => m.Name == "admin"); user.Roles.Add(new IdentityUserRole { RoleId = role.Id }); 文件扩展名中。

文件应该是这样的:

  

John PER
  工作O
  在O
  英特尔ORG

这仅用于表示数据,因为我不知道您要定位哪种印度语言。但您的数据必须始终为制表符分隔值。第一个是令牌,另一个值是相关标签。

我通过构建自定义数据(虽然英语)尝试了NER并构建了一个模型。

所以我认为印度语言也很可能。