斯坦福NER分类与其他类

时间:2014-11-10 06:02:56

标签: machine-learning nlp classification stanford-nlp

目前的斯坦福大学NER主要提供6个班级LOCATION, TIME, PERSON' ORGANIZATION' MONEY' PERCENT' DATE  此外,它已经过英语数据培训,因此无法对印度实体进行分类。

是否可以使用其他类训练分类器,以便它还可以将NE识别为product, month, disease, device等。

此外,它不对印度实体进行分类,因此如果可能的话,也可以添加对非英语类的支持。

是否可以重新训练分类器,标记器以获得此额外支持?

3 个答案:

答案 0 :(得分:3)

印度实体的一个可能性是,如果斯坦福民众形成良好,他们通常乐意将外部训练数据添加到分类器中。例如,当前三种英语模型中的两种不能识别" Vihari"在句子" Vihari昨天回答了我的问题。"如果您编译这些句子的列表并将它们发送到java-nlp-support@lists.stanford.edu,它们最终会进入未来的模型。

您必须自己为其他类标记大量数据,例如产品,设备等,这是一项相当耗时的任务。如果您可以节省预算,亚马逊机械土耳其人可能会服务。

答案 1 :(得分:1)

培训模型而不是其他课程的主要麻烦是培训数据。
模型需要高度准确的培训数据,例如I brought a <START:product> Mac Book Pro <END> in September and synced it with my <START:device> IPhone <END>.观察Iphone可以使用设备或产品进行注释。
如果您可以生成或注释至少15,000个用您希望识别的类别注释的句子[这并不容易];你很高兴 斯坦福NER模型或OpenNLP NER模型不承认印度名称,因为这些模型是在华尔街期刊文章上进行培训的,并且它们不代表许多名称。

答案 2 :(得分:1)

  

此外,它不对印度实体进行分类,因此如果可能的话,也可以添加对非英语类的支持。

印度人,&#34;你是说印地语吗?斯坦福NER和Apache OpenNLP都没有为印地语提供命名实体模型,但GATE支持基本的印地语命名实体识别:https://gate.ac.uk/sale/tao/splitch15.html#x20-41300015.7