BILOU标签在命名实体识别中意味着什么?

时间:2013-06-14 20:05:36

标签: nlp named-entity-recognition

标题几乎总结了这个问题。我注意到在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的BIO标记方案(例如Ratinov和Roth在2009年撰写的这篇论文http://cogcomp.cs.illinois.edu/page/publication_view/199

从使用2003 CoNLL数据开始,我知道

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

虽然我被告知BILOU中的单词代表

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

我也看到人们引用另一个标签

E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag

我对NER文献很新,但我一直无法找到清楚解释这些标签的东西。我的问题特别涉及'last'和'end'标签之间的区别,以及'unit'标签代表什么。

6 个答案:

答案 0 :(得分:27)

基于Clear TK中的issuepatch,似乎BILOU代表“多令牌块的开始,内部和最后一个令牌,单位长度和外部“(强调添加)。例如,用括号

表示的组块
(foo foo foo) (bar) no no no (bar bar)

可以用BILOU编码为

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar

答案 1 :(得分:10)

我想补充一些比较BIO和BILOU计划的经验。我的实验仅针对一个数据集,可能不具有代表性。

我的数据集包含大约35,000个简短的发音(2-10个令牌),并使用11个不同的标签进行注释。换句话说,有11个命名实体。

使用的功能包括单词,左右2克,1-5个字符ngram(中间除外),形状特征等。很少有实体也被地名录支持。

我改组数据集并将其拆分为80/20部分:培训和测试。该过程重复5次,对于每个实体,我记录了Precision,Recall和F1-measure。性能是在实体层面测量的,而不是像在Ratinov&罗斯,2009年论文。

我用来训练模型的软件是CRFSuite。我使用L-BFGS求解器,c1 = 0,c2 = 1。

首先,对比5倍的测试结果非常相似。这意味着从运行到运行几乎没有变化,这很好。其次,BIO方案的表现与BILOU方案非常相似。如果存在任何显着差异,可能是精确,召回和F1测量后的第三或第四位数。

结论:在我的实验中,BILOU方案并不比BIO方案更好(但也不差)。

答案 2 :(得分:3)

B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole

BILOU与BMEWO相同。

还有BMEWO +,它将有关周围词类的更多信息提供给外部令牌(因此“O plus”)

请参阅此处的详细信息https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

答案 3 :(得分:1)

这只是为您的标签提供更多上下文,说明实体的哪个部分。

 BILOU Method/Schema

 | ------|--------------------|
 | BEGIN | The first token    |
 | ------|--------------------| 
 | IN    | An inner token     |
 | ------|--------------------|
 | LAST  | The final token    |
 | ------|--------------------|
 | Unit  | A single-token     |
 | ------|--------------------|
 | Out   | A non-entity token |
 | ------|--------------------|

生物

一种更复杂的注释方法可以区分命名实体的结尾和单个实体。此方法称为 BIOES,分别表示 Begin、Inside、Outside、End、Single。


IOB(例如 CoNLL 2003)

IOB(或 BIO)代表开始、内部和外部。标有 O 的词在命名实体之外


更多详细信息请点击以下链接

    URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)

    URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf

答案 4 :(得分:0)

  • B-'开始'
  • 我-'内部'
  • L-'last'
  • O-'外部/其他'
  • U-'unigram'

答案 5 :(得分:0)

BIOBILOU相同,除了以下几点:

  1. BILOU中,特定I“集群”中的最后一个I标签将转换为L。 例如
BIO - B-foo, I-foo, I-foo, O, O, O, B-bar, I-bar
BILOU - B-foo, I-foo, L-foo, O, O, O, B-bar, L-bar
  1. BILOU中,任何独立标签都将转换为U标签。 例如
BIO - B-foo, O, O, O, B-bar
BILOU - U-foo, O, O, O, U-bar

以下是用BIOBILOU表示法表示的一组相同标签:

BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O