使用nltk识别预先标记的实体

时间:2018-08-01 23:01:14

标签: python xml nlp nltk elementtree

我对使用nltk和ElementTree没有太多经验。我有一个xml文件,其中包含我感兴趣的手动标记的实体。该xml文件的结构为:

<CORPORA>
    <RECORD id="01">
    Irrelevant text <entity>an interesting entity</entity> more irrelevant text.
    </RECORD>
</CORPORA>

我想开发一个自定义分块器来识别这类实体。我想遵循this documentation中第三点的步骤,但是我无法以正确的格式获取数据。我如何解析该文件以获得类似的内容?

irrelevant pos_tag O-ENT
text pos_tag O-ENT
an pos_tag B-ENT
interesting pos_tag I-ENT
entity pos_tag I-ENT
more pos_tag O-ENT
irrelevant pos_tag O-ENT
text pos_tag O-ENT
. pos_tag O-ENT

谢谢!

0 个答案:

没有答案