我想利用XML形式的结构化信息来训练Stanford NLP包的CRF模型。 XML看起来像:
<dates>
<date>Advance Access publication on
<month>July</month>
<day>11</day>,
<year>2007</year>
</date>
</dates>
根据http://nlp.stanford.edu/software/crf-faq.shtml#a,我可以使用
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok
获取我的代币。但是,我如何利用XML封装自动使用适当的类标记我的标记?
Stanford NLP包中是否有这样的支持/流程,或者我是否应该手动编写我的令牌文件(例如使用XSLT)?
答案 0 :(得分:0)
我不知道这种XML格式。如果它是一个通用标准,您可能能够找到转换器 - 您希望转换为“IO”或“IOB”编码,这是斯坦福NER使用的。否则,你必须手动完成。
以下是IO编码的示例:每行有一个单词,每个单词都有一个相应的NER标记。此标记为“O”(无标签)或某些特定的NER标签。请注意,句子用空行分隔。
I O
complained O
to O
Microsoft ORGANIZATION
about O
Bill PERSON
Gates PERSON
. O
They O
told O
me O
to O
see O
the O
mayor O
of O
New LOCATION
York LOCATION
. O