Question

我想利用XML形式的结构化信息来训练Stanford NLP包的CRF模型。 XML看起来像：

<dates>
   <date>Advance Access publication on 
      <month>July</month>
      <day>11</day>, 
      <year>2007</year>
   </date>
</dates>

根据http://nlp.stanford.edu/software/crf-faq.shtml#a，我可以使用

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok

获取我的代币。但是，我如何利用XML封装自动使用适当的类标记我的标记？

Stanford NLP包中是否有这样的支持/流程，或者我是否应该手动编写我的令牌文件（例如使用XSLT）？

Answer 1

我不知道这种XML格式。如果它是一个通用标准，您可能能够找到转换器 - 您希望转换为“IO”或“IOB”编码，这是斯坦福NER使用的。否则，你必须手动完成。

以下是IO编码的示例：每行有一个单词，每个单词都有一个相应的NER标记。此标记为“O”（无标签）或某些特定的NER标签。请注意，句子用空行分隔。

I   O
complained  O
to  O
Microsoft   ORGANIZATION
about   O
Bill    PERSON
Gates   PERSON
.   O

They    O
told    O
me  O
to  O
see O
the O
mayor   O
of  O
New LOCATION
York    LOCATION
.   O

转换XML以用作命名实体识别（NER）的训练集

1 个答案: