我对使用nltk和ElementTree没有太多经验。我有一个xml文件,其中包含我感兴趣的手动标记的实体。该xml文件的结构为:
<CORPORA>
<RECORD id="01">
Irrelevant text <entity>an interesting entity</entity> more irrelevant text.
</RECORD>
</CORPORA>
我想开发一个自定义分块器来识别这类实体。我想遵循this documentation中第三点的步骤,但是我无法以正确的格式获取数据。我如何解析该文件以获得类似的内容?
irrelevant pos_tag O-ENT
text pos_tag O-ENT
an pos_tag B-ENT
interesting pos_tag I-ENT
entity pos_tag I-ENT
more pos_tag O-ENT
irrelevant pos_tag O-ENT
text pos_tag O-ENT
. pos_tag O-ENT
谢谢!