应用错误收集

具有小数据集的命名实体识别（语料库）

时间：2015-06-14 11:12:40

标签： continuous-deployment named-entity-recognition reinforcement-learning named-entity-extraction

我想用波斯语开发一个命名的实体识别系统，但是我们有一个小的NER标记语料库用于训练和测试。也许将来我们会有更好更大的语料库。顺便说一句，我需要一个解决方案，无论何时添加新数据，都可以逐步获得更好的性能，而无需将新数据与旧数据和从头开始的训练合并。有没有解决方案？

1 个答案:

答案 0 :(得分：0)

是。在您的帮助下：这是一项正在进行中的工作。这是JS和＆＃34;没有培训...＆＃34;

请看 https://github.com/redaktor/nlp_compromise/！

这是我最近几天在NER工作的一个分支，它将针对不同语言的使用进行优化!!!

它是单词字典，规则字典+构建工具的组合。在波斯人的支持下工作真是太棒了（我在德国工作）...... 计划支持

的NER

＆＃39; CARDINAL＆＃39; - ＆GT; [准备]
＆＃39; DATE＆＃39; - ＆GT;基于日历[格里高利历已准备好]
＆＃39; DURATION＆＃39; - ＆GT;见上文[日期范围已准备好]
＆＃39; MEASURE＆＃39; - ＆GT;基于系统[公制和SI单位就绪，80多个类别]
＆＃39; MONEY＆＃39; - ＆GT;基于货币[准备好几天]
＆＃39; PERSON＆＃39; - ＆GT;基于单词/规则[英语/欧洲名称准备好]
＆＃39;组织＆＃39;
＆＃39; LOCATION＆＃39;

我认为这可能是一个起点？我没有时间记录新功能 - 随时在github上打开问题。