This是我的问题,但它没有说明如何正确定义模板文件。
我的培训文件如下所示:
上 B-NR
海 L-NR
浦 B-NR
东 L-NR
开 B-NN
发 L-NN
与 U-CC
法 B-NN
制 L-NN
建 B-NN
...
答案 0 :(得分:0)
CRF ++非常易于使用。网站上的说明清楚地解释了它。
http://crfpp.googlecode.com/svn/trunk/doc/index.html
假设我们提取线的特征 东L-NR
Unigram
U02:%x [0,0] #means当前行的第0列
U03:%x [1,0] #means下一行的第0列
所以底层特征是“column0 =开”
类似于bigrams
答案 1 :(得分:0)
似乎这个问题源于不清楚CRF ++如何处理训练文件。您的功能可能不包括最后一列中的值。这些是标签!如果您将它们包含在您的功能中,您的模型将非常完美!定义模板文件时,因为您只有两列,所以只能包含%x [n,0]形式的规则。它被硬编码到CRF ++中(尽管没有明确记载,据我所知),-4< = n< = 4。