我是CRF的新手,我想用CRFsuite标记单词。我阅读CRFsuite's manual并了解培训数据的格式,但如果我想添加一些带有“近词”标签的功能,那么培训数据文件是什么样的?
我有谷歌,但我没有发现这个问题。
答案 0 :(得分:2)
简短的回答是,您提供单词coffee的属性(如w[-1]=drank
表示前一个单词)及其标签(NOUN
),CRFsuite会生成组成CRF的实际指标函数model(包括指示前一个单词的标签为VERB
的功能)。它知道这样做是因为它使用带有二元特征的"一阶Markov CRF,"如您链接到的手册页所述。
重要的一个区别(文档可能更精确)是"功能和#34;之间的区别。和"属性"其中,要素是模型中表示(属性,标签)或(标签,标签)对的链接。
因此,在您的示例中,w[-1]=drank
是您提供的属性。 w[-1]=drank, NOUN
的组合是状态功能,标签VERB --> NOUN
之间的转换是转换功能,两者都由CRFsuite生成。
我推荐tutorial,会更详细地讨论这个问题。