我想用波斯语开发一个命名的实体识别系统,但是我们有一个小的NER标记语料库用于训练和测试。也许将来我们会有更好更大的语料库。 顺便说一句,我需要一个解决方案,无论何时添加新数据,都可以逐步获得更好的性能,而无需将新数据与旧数据和从头开始的训练合并。 有没有解决方案?
答案 0 :(得分:0)
是。在您的帮助下:这是一项正在进行中的工作。这是JS和"没有培训..."
请看 https://github.com/redaktor/nlp_compromise/!
这是我最近几天在NER工作的一个分支,它将针对不同语言的使用进行优化!!!
它是单词字典,规则字典+构建工具的组合。 在波斯人的支持下工作真是太棒了(我在德国工作)...... 计划支持
的NER我认为这可能是一个起点? 我没有时间记录新功能 - 随时在github上打开问题。