斯坦福NER:提取单独的实体列表?

时间:2012-04-16 12:31:38

标签: java stanford-nlp named-entity-recognition

我可以使用以下代码获取带有命名实体的字符串。

String NEString =  classifier.classifyWithInlineXML(fileContents)

我想知道是否有任何方法可以调用,以便我可以在文件中获得单独的实体(PERSON,ORGANIZATION,LOCATIOIN)列表,这样我就不必解析检索到的字符串了以上方法获取实体列表?

2 个答案:

答案 0 :(得分:3)

在我看来,运行分类的最简洁方法是:

List<Triple<String,Integer,Integer>> out = classifier.classifyToCharacterOffsets(text);
triple.first(): entity type
triple.second(): start position
triple.third(): end position

它对后续实体进行分组,并返回实体的开始和结束位置。

答案 1 :(得分:1)

据我所知,有三种方法可以获得带注释的字符串:

1)classifier.classifyToString(" ")

2)classifier.classifyWithInlineXML(" ")

3)classifier.classifyToString(" ", "xml", true)

第一个是最容易分开的。不幸的是,没有任何你想要的方法。