我计划使用命名实体识别(NER)技术从给定文本中识别人名(大多数是印度名称)。我已经从斯坦福NLP探索了基于CRF的NER模型,但它在识别印度名称方面并不十分准确。因此,我决定通过监督培训创建我自己的自定义NER模型。我对如何使用斯坦福NER CRF创建自己的NER模型有一个很好的想法,但是我想要避免创建一个带有手动注释的大型训练语料库,因为这对于个人而言是一种巨大的努力,其次是获得不同的人名来自印度不同的州也是一个挑战。任何人都可以建议任何自动化/编程方式来准备一个至少有10万印度名称的标记训练语料库吗? 我已经查看了Facebook和LinkedIn API,但没有找到从给定位置(例如印度)提取10万用户全名的方法。
答案 0 :(得分:7)
我最终做了以下工作来创建NER模型来识别印度名字。这可能对任何想要创建自定义NER模型以识别非英语人名的人都有用,因为大多数公开可用的NER模型(例如来自斯坦福NLP的模型)都使用英文名称进行培训,因此更准确地识别英语(英国/美国)的名字。
答案 1 :(得分:4)
本网站已为我们完成此任务!它为这些问题提供了解决方案: 印度语NER面临的挑战 印度语属于几个语系,主要是印欧语系,印度 - 雅利安语和德拉威语。 NER的挑战是由于几个因素造成的。下面列出了一些主要因素 形态丰富 - 根的识别很困难,需要使用形态分析仪 没有资本化功能 - 在英语中,大写是主要特征之一,而在印度语中则没有 歧义 - 普通名词和专有名词之间的歧义。例如:常见的词语,例如" Roja"意思是玫瑰花是一个人的名字 拼写变化 - 在网络数据中,我们发现不同的人以不同的方式拼写相同的实体 - 例如:在泰米尔语中,人物名称-Roja拼写为" rosa"," roja"。 提供整个语料库。
Named Entity Recognition for Indian Languages and English
获取zip文件密码的好运!
喝彩!