Question

我正在建立一个信息提取语料库，用于提取特定类型的信息，我正在尝试决定注释实体的最佳方式。我发现IEER语料库为此使用了SGML标记元素ENAMEX，NUMEX和TIMEX标记（如下所述：http://itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/ne_task.html）。由于本文档是在1997年编写的，我猜测使用这种基于SGML的方法已经过时了，并且必须有更好的方法来实现这一点，例如：使用OWL，RDF或XML。是否有更新的行业标准来注释信息提取语料库？

Answer 1

我想说在该领域没有足够的标准化，但也不清楚是否需要单一格式。我的建议是查看选项并选择最适合您的数据和编码信息的选项。

brat是注释语言资源方面的新经典。它有自己的对峙注释标准。还有Anafora工具，它也有自己的基于XML的标准。基于UIMA的工具通常使用CAS标准（但文档不好）。您还应该查看原生GATE XML format。

如果您编码的信息足够简单，例如命名实体类型，您甚至可以使用表格格式，例如CoNLL。

如果这些都不符合您的要求，只需实施适合它们的任何内容。

Answer 2

NLTK书（chapter 07, paragraph: Representing Chunks: Tags vs Trees）声明：

最广泛的文件表示使用 IOB标记。

继续解释：

[...]每个令牌都标有三个特殊块标签之一，I（内部），O（外部）或B（开始）。 [...] B和I标签以块类型为后缀，例如B-NP，I-NP
We PRP B-NP
saw VBD O
the DT B-NP
little JJ I-NP
yellow JJ I-NP
dog NN I-NP

维基百科在IOB format上有一个页面。

Stanford NLP apparently也支持它。

spaCy使用略有不同的BILUO format。

什么标记语言通常用于注释信息提取语料库

2 个答案: