应用错误收集

时间：2016-01-13 08:36:47

标签： nlp stanford-nlp named-entity-recognition

我正在尝试使用自定义NE（命名实体）字典在 Indian 中训练NER模型以进行分块。我分别提到NLTK和Stanford NER：

我发现nltk.chunk.named_entity.NEChunkParser nechunkparser能够在自定义语料库上进行训练。但是，培训语料库的格式未在文档或源代码的注释中指定。

在哪里可以找到NLTK中NER自定义语料库的一些指南？

根据question，斯坦福NER的常见问题解答提供了如何训练定制NER模型的方向。

主要担心之一是默认的斯坦福NER不支持印度人。那么将印度NER语料库提供给模型是否可行？

答案 0 :(得分：1)

您的培训语料库必须位于var role = context.Roles.SingleOrDefault(m => m.Name == "admin"); user.Roles.Add(new IdentityUserRole { RoleId = role.Id });文件扩展名中。

文件应该是这样的：

John PER
  工作O
  在O
  英特尔ORG

这仅用于表示数据，因为我不知道您要定位哪种印度语言。但您的数据必须始终为制表符分隔值。第一个是令牌，另一个值是相关标签。

我通过构建自定义数据（虽然英语）尝试了NER并构建了一个模型。

所以我认为印度语言也很可能。