斯坦福NER - 提取多字实体

时间:2011-04-18 07:54:27

标签: java stanford-nlp named-entity-recognition

如何在斯坦福NER中标记搭配?目前,它将Federal Reserve Bank of New York标记为

<wi num="11" entity="ORGANIZATION">Federal</wi> <wi num="12" entity="ORGANIZATION">Reserve</wi> <wi num="13" entity="ORGANIZATION">Bank</wi> <wi num="14" entity="ORGANIZATION">of</wi> <wi num="15" entity="ORGANIZATION">New</wi> <wi num="16" entity="ORGANIZATION">York</wi>

我希望它被识别为

<wi num="11" entity="ORGANIZATION">Federal Reserve Bank of New York</wi>

这可能吗?

1 个答案:

答案 0 :(得分:2)

类似的是,是的。如果你举旗子

-outputFormat inlineXML

然后你会得到:

<ORGANIZATION>Federal Reserve Bank of New York</ORGANIZATION>

(请注意,这并没有真正改变Stanford NER的工作原理,只是输出格式化。如果您不喜欢任何提供的输出格式,编写自己的输出格式相当简单。)