应用错误收集

我对使用nltk和ElementTree没有太多经验。我有一个xml文件，其中包含我感兴趣的手动标记的实体。该xml文件的结构为：

<CORPORA>
    <RECORD id="01">
    Irrelevant text <entity>an interesting entity</entity> more irrelevant text.
    </RECORD>
</CORPORA>

我想开发一个自定义分块器来识别这类实体。我想遵循this documentation中第三点的步骤，但是我无法以正确的格式获取数据。我如何解析该文件以获得类似的内容？

irrelevant pos_tag O-ENT
text pos_tag O-ENT
an pos_tag B-ENT
interesting pos_tag I-ENT
entity pos_tag I-ENT
more pos_tag O-ENT
irrelevant pos_tag O-ENT
text pos_tag O-ENT
. pos_tag O-ENT

谢谢！

使用nltk识别预先标记的实体

0 个答案: