具有小数据集的命名实体识别(语料库)

时间:2015-06-14 11:12:40

标签: continuous-deployment named-entity-recognition reinforcement-learning named-entity-extraction

我想用波斯语开发一个命名的实体识别系统,但是我们有一个小的NER标记语料库用于训练和测试。也许将来我们会有更好更大的语料库。 顺便说一句,我需要一个解决方案,无论何时添加新数据,都可以逐步获得更好的性能,而无需将新数据与旧数据和从头开始的训练合并。 有没有解决方案?

1 个答案:

答案 0 :(得分:0)

是。在您的帮助下:这是一项正在进行中的工作。这是JS和"没有培训..."

请看 https://github.com/redaktor/nlp_compromise/

这是我最近几天在NER工作的一个分支,它将针对不同语言的使用进行优化!!!

它是单词字典,规则字典+构建工具的组合。 在波斯人的支持下工作真是太棒了(我在德国工作)...... 计划支持

的NER
  • ' CARDINAL' - > [准备]
  • ' DATE' - >基于日历[格里高利历已准备好]
  • ' DURATION' - >见上文[日期范围已准备好]
  • ' MEASURE' - >基于系统[公制和SI单位就绪,80多个类别]
  • ' MONEY' - >基于货币[准备好几天]
  • ' PERSON' - >基于单词/规则[英语/欧洲名称准备好]
  • '组织'
  • ' LOCATION'

我认为这可能是一个起点? 我没有时间记录新功能 - 随时在github上打开问题。