如何将从朴素贝叶斯预测的句子类别表示为CRF ++或Wapiti中的一个特征?
例如,如果句子Tumblr merges with Yahoo.
被归类为Business
,那么在为crf撰写培训文件时,我在哪里可以将标签Business
指定为特征?那么模板应该如何建模呢?
火车档案应该是这样吗
Tumblr business ORG
merges business O
with business O
Yahoo business ORG
或仅包含带有ORG
标签的类别?怎么会这样?和模板文件?
答案 0 :(得分:1)
方法1:
您可以使用与展示时相同的方式添加business
作为功能,也可以只编写1
而不是business
。同样,对于类别sports
,您可以添加另一列,对于属于体育句子的单词,此列中的值应为1
。
您还必须分别在模板文件中添加每一列。
U42:%x[0,1] #for business
U43:%x[0,2] #for sports
方法2: 包含ORG类别可能不是一个好主意,因为相同的ORG可以出现在不同的类别中。
答案 1 :(得分:0)
据我所知,您的列车文件是包含句子级注释的唯一方法,除非您考虑调整/实施考虑句子级功能的CRF。
如果您有足够的训练数据和数量有限的类别,这种方法可能会影响较低权重的句子类别:它只会用于区分命名实体,只要它们不明确,并且计算的NE类别概率是某种方式关闭。
最好的方法是使用/不使用此功能进行训练,看看它是否能提高NER!应该是一个有趣的实验:)