我正在尝试使用自定义NE(命名实体)字典在 Indian 中训练NER模型以进行分块。我分别提到NLTK和Stanford NER:
我发现nltk.chunk.named_entity.NEChunkParser
nechunkparser能够在自定义语料库上进行训练。但是,培训语料库的格式未在文档或源代码的注释中指定。
在哪里可以找到NLTK中NER自定义语料库的一些指南?
根据question,斯坦福NER的常见问题解答提供了如何训练定制NER模型的方向。
主要担心之一是默认的斯坦福NER不支持印度人。那么将印度NER语料库提供给模型是否可行?
答案 0 :(得分:1)
您的培训语料库必须位于var role = context.Roles.SingleOrDefault(m => m.Name == "admin");
user.Roles.Add(new IdentityUserRole { RoleId = role.Id });
文件扩展名中。
文件应该是这样的:
John PER
工作O
在O
英特尔ORG
这仅用于表示数据,因为我不知道您要定位哪种印度语言。但您的数据必须始终为制表符分隔值。第一个是令牌,另一个值是相关标签。
我通过构建自定义数据(虽然英语)尝试了NER并构建了一个模型。
所以我认为印度语言也很可能。