好的,下面是模板文件,如果我认为每个功能与第一个功能(单词)相同,一切正常,但当我尝试只处理当前单词的形状特征时,模型会尝试最好将每件事物标记为PER ......
我无法找到关于crfpp模板的任何详细说明,但我想我可能错了。
对于大写功能,如果我只想模拟当前单词的信息但忽略上一个或下一个单词大小写信息,是否可以?
# Unigram
# word
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
U07:%x[-2,0]/%x[-1,0]/%x[0,0]/%x[1,0]/%x[0,0]
# is capitalized
U08:%x[0,1] # if current word is capitalized
# is all uppercased
U09:%x[0,2]
# is alphanumeric
U10:%x[0,3]
# lowercased prefix
U11:%x[0,4]
# lowercased suffix
U12:%x[0,5]
# add for entity like iphone 6
U15:%x[0,6] # word type
U16:%x[0,6]/%x[-1,1]
# to seperate different language types
U17:%x[0,6]/%x[1,6]
U18:%x[-1,6]/%x[0,6]
# words eclosed by bracket is likely to be an entity
U19:%x[0,7]
U20:%x[-1,7]
U21:%x[1,7]
U22:%x[0,7]/%x[1,7]
U23:%x[-1,7]/%x[0,7]