我正在使用CRFSuite进行序列分类(POS标记)。令我惊讶的是,似乎CRFSuite不喜欢标签':' 具有':'的单位或代币因为实际标签被完全跳过(预测输出中没有关于丢失或跳过项目的评论)
我使用其他与标点符号相关的标签,例如'。'或',',但这些都被正确使用和输出。
有人有类似的经历或者说明了为什么':'被跳过?
答案 0 :(得分:2)
来自http://www.chokkan.org/software/crfsuite/tutorial.html:
CRFsuite接受任何字符串作为属性名称,只要该字符串不包含冒号字符(用于分隔属性名称及其权重)。
因此,如果你有一个像w [0] =:0.5的属性,属性名称是" w [0] ="重量是0.5。