CRF ++ / Wapiti包括整个句子的类别作为特征

时间:2017-06-07 15:15:20

标签: machine-learning nlp named-entity-recognition crf crf++

如何将从朴素贝叶斯预测的句子类别表示为CRF ++或Wapiti中的一个特征?

例如,如果句子Tumblr merges with Yahoo.被归类为Business,那么在为crf撰写培训文件时,我在哪里可以将标签Business指定为特征?那么模板应该如何建模呢?

火车档案应该是这样吗

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG

或仅包含带有ORG标签的类别?怎么会这样?和模板文件?

2 个答案:

答案 0 :(得分:1)

方法1: 您可以使用与展示时相同的方式添加business作为功能,也可以只编写1而不是business。同样,对于类别sports,您可以添加另一列,对于属于体育句子的单词,此列中的值应为1。 您还必须分别在模板文件中添加每一列。

U42:%x[0,1] #for business
U43:%x[0,2] #for sports

方法2: 包含ORG类别可能不是一个好主意,因为相同的ORG可以出现在不同的类别中。

答案 1 :(得分:0)

据我所知,您的列车文件是包含句子级注释的唯一方法,除非您考虑调整/实施考虑句子级功能的CRF。

如果您有足够的训练数据和数量有限的类别,这种方法可能会影响较低权重的句子类别:它只会用于区分命名实体,只要它们不明确,并且计算的NE类别概率是某种方式关闭。

最好的方法是使用/不使用此功能进行训练,看看它是否能提高NER!应该是一个有趣的实验:)