标题几乎总结了这个问题。我注意到在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的BIO标记方案(例如Ratinov和Roth在2009年撰写的这篇论文http://cogcomp.cs.illinois.edu/page/publication_view/199)
从使用2003 CoNLL数据开始,我知道
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
虽然我被告知BILOU中的单词代表
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
我也看到人们引用另一个标签
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
我对NER文献很新,但我一直无法找到清楚解释这些标签的东西。我的问题特别涉及'last'和'end'标签之间的区别,以及'unit'标签代表什么。
答案 0 :(得分:27)
基于Clear TK中的issue和patch,似乎BILOU代表“多令牌块的开始,内部和最后一个令牌,单位长度和外部“(强调添加)。例如,用括号
表示的组块(foo foo foo) (bar) no no no (bar bar)
可以用BILOU编码为
B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar
答案 1 :(得分:10)
我想补充一些比较BIO和BILOU计划的经验。我的实验仅针对一个数据集,可能不具有代表性。
我的数据集包含大约35,000个简短的发音(2-10个令牌),并使用11个不同的标签进行注释。换句话说,有11个命名实体。
使用的功能包括单词,左右2克,1-5个字符ngram(中间除外),形状特征等。很少有实体也被地名录支持。
我改组数据集并将其拆分为80/20部分:培训和测试。该过程重复5次,对于每个实体,我记录了Precision,Recall和F1-measure。性能是在实体层面测量的,而不是像在Ratinov&罗斯,2009年论文。
我用来训练模型的软件是CRFSuite。我使用L-BFGS求解器,c1 = 0,c2 = 1。
首先,对比5倍的测试结果非常相似。这意味着从运行到运行几乎没有变化,这很好。其次,BIO方案的表现与BILOU方案非常相似。如果存在任何显着差异,可能是精确,召回和F1测量后的第三或第四位数。
结论:在我的实验中,BILOU方案并不比BIO方案更好(但也不差)。
答案 2 :(得分:3)
B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole
BILOU与BMEWO相同。
还有BMEWO +,它将有关周围词类的更多信息提供给外部令牌(因此“O plus”)
请参阅此处的详细信息https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/
答案 3 :(得分:1)
这只是为您的标签提供更多上下文,说明实体的哪个部分。
BILOU Method/Schema
| ------|--------------------|
| BEGIN | The first token |
| ------|--------------------|
| IN | An inner token |
| ------|--------------------|
| LAST | The final token |
| ------|--------------------|
| Unit | A single-token |
| ------|--------------------|
| Out | A non-entity token |
| ------|--------------------|
生物
一种更复杂的注释方法可以区分命名实体的结尾和单个实体。此方法称为 BIOES,分别表示 Begin、Inside、Outside、End、Single。
IOB(例如 CoNLL 2003)
IOB(或 BIO)代表开始、内部和外部。标有 O 的词在命名实体之外
更多详细信息请点击以下链接
URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf
答案 4 :(得分:0)
答案 5 :(得分:0)
BIO
与BILOU
相同,除了以下几点:
BILOU
中,特定I
“集群”中的最后一个I
标签将转换为L
。
例如BIO - B-foo, I-foo, I-foo, O, O, O, B-bar, I-bar
BILOU - B-foo, I-foo, L-foo, O, O, O, B-bar, L-bar
BILOU
中,任何独立标签都将转换为U
标签。
例如BIO - B-foo, O, O, O, B-bar
BILOU - U-foo, O, O, O, U-bar
以下是用BIO
和BILOU
表示法表示的一组相同标签:
BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O