转换XML以用作命名实体识别(NER)的训练集

时间:2015-03-20 16:18:29

标签: xml nlp stanford-nlp named-entity-recognition crf

我想利用XML形式的结构化信息来训练Stanford NLP包的CRF模型。 XML看起来像:

<dates>
   <date>Advance Access publication on 
      <month>July</month>
      <day>11</day>, 
      <year>2007</year>
   </date>
</dates>

根据http://nlp.stanford.edu/software/crf-faq.shtml#a,我可以使用

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok

获取我的代币。但是,我如何利用XML封装自动使用适当的类标记我的标记?

Stanford NLP包中是否有这样的支持/流程,或者我是否应该手动编写我的令牌文件(例如使用XSLT)?

1 个答案:

答案 0 :(得分:0)

我不知道这种XML格式。如果它是一个通用标准,您可能能够找到转换器 - 您希望转换为“IO”或“IOB”编码,这是斯坦福NER使用的。否则,你必须手动完成。

以下是IO编码的示例:每行有一个单词,每个单词都有一个相应的NER标记。此标记为“O”(无标签)或某些特定的NER标签。请注意,句子用空行分隔。

I   O
complained  O
to  O
Microsoft   ORGANIZATION
about   O
Bill    PERSON
Gates   PERSON
.   O

They    O
told    O
me  O
to  O
see O
the O
mayor   O
of  O
New LOCATION
York    LOCATION
.   O