定义CRF ++模板文件

时间:2015-03-01 09:35:44

标签: c++ perl nlp

This是我的问题,但它没有说明如何正确定义模板文件。

我的培训文件如下所示:

上   B-NR
海   L-NR
浦   B-NR
东   L-NR
开   B-NN
发   L-NN
与   U-CC
法   B-NN
制   L-NN
建   B-NN
...

2 个答案:

答案 0 :(得分:0)

CRF ++非常易于使用。网站上的说明清楚地解释了它。

http://crfpp.googlecode.com/svn/trunk/doc/index.html

假设我们提取线的特征 东L-NR

Unigram

  

U02:%x [0,0] #means当前行的第0列

     

U03:%x [1,0] #means下一行的第0列

所以底层特征是“column0 =开”

类似于bigrams

答案 1 :(得分:0)

似乎这个问题源于不清楚CRF ++如何处理训练文件。您的功能可能不包括最后一列中的值。这些是标签!如果您将它们包含在您的功能中,您的模型将非常完美!定义模板文件时,因为您只有两列,所以只能包含%x [n,0]形式的规则。它被硬编码到CRF ++中(尽管没有明确记载,据我所知),-4< = n< = 4。