什么标记语言通常用于注释信息提取语料库

时间:2017-05-19 04:51:52

标签: nlp information-extraction

我正在建立一个信息提取语料库,用于提取特定类型的信息,我正在尝试决定注释实体的最佳方式。我发现IEER语料库为此使用了SGML标记元素ENAMEXNUMEXTIMEX标记(如下所述:http://itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/ne_task.html)。由于本文档是在1997年编写的,我猜测使用这种基于SGML的方法已经过时了,并且必须有更好的方法来实现这一点,例如:使用OWL,RDF或XML。是否有更新的行业标准来注释信息提取语料库?

2 个答案:

答案 0 :(得分:2)

我想说在该领域没有足够的标准化,但也不清楚是否需要单一格式。我的建议是查看选项并选择最适合您的数据和编码信息的选项。

brat是注释语言资源方面的新经典。它有自己的对峙注释标准。还有Anafora工具,它也有自己的基于XML的标准。基于UIMA的工具通常使用CAS标准(但文档不好)。您还应该查看原生GATE XML format

如果您编码的信息足够简单,例如命名实体类型,您甚至可以使用表格格式,例如CoNLL

如果这些都不符合您的要求,只需实施适合它们的任何内容。

答案 1 :(得分:1)

NLTK书(chapter 07, paragraph: Representing Chunks: Tags vs Trees)声明:

  

最广泛的文件表示使用 IOB标记

继续解释:

  

[...]每个令牌都标有三个特殊块标签之一,I(内部),O(外部)或B(开始)。 [...] B和I标签以块类型为后缀,例如B-NP,I-NP

We PRP B-NP
saw VBD O
the DT B-NP
little JJ I-NP
yellow JJ I-NP
dog NN I-NP

维基百科在IOB format上有一个页面。

Stanford NLP apparently也支持它。

spaCy使用略有不同的BILUO format