我正在建立一个信息提取语料库,用于提取特定类型的信息,我正在尝试决定注释实体的最佳方式。我发现IEER语料库为此使用了SGML标记元素ENAMEX
,NUMEX
和TIMEX
标记(如下所述:http://itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/ne_task.html)。由于本文档是在1997年编写的,我猜测使用这种基于SGML的方法已经过时了,并且必须有更好的方法来实现这一点,例如:使用OWL,RDF或XML。是否有更新的行业标准来注释信息提取语料库?
答案 0 :(得分:2)
我想说在该领域没有足够的标准化,但也不清楚是否需要单一格式。我的建议是查看选项并选择最适合您的数据和编码信息的选项。
brat是注释语言资源方面的新经典。它有自己的对峙注释标准。还有Anafora工具,它也有自己的基于XML的标准。基于UIMA的工具通常使用CAS标准(但文档不好)。您还应该查看原生GATE XML format。
如果您编码的信息足够简单,例如命名实体类型,您甚至可以使用表格格式,例如CoNLL。
如果这些都不符合您的要求,只需实施适合它们的任何内容。
答案 1 :(得分:1)
NLTK书(chapter 07, paragraph: Representing Chunks: Tags vs Trees)声明:
最广泛的文件表示使用 IOB标记。
继续解释:
[...]每个令牌都标有三个特殊块标签之一,I(内部),O(外部)或B(开始)。 [...] B和I标签以块类型为后缀,例如B-NP,I-NP
We PRP B-NP saw VBD O the DT B-NP little JJ I-NP yellow JJ I-NP dog NN I-NP
维基百科在IOB format上有一个页面。
Stanford NLP apparently也支持它。
spaCy使用略有不同的BILUO format。