jcrfsuite培训文件格式

时间:2017-05-18 10:04:58

标签: java machine-learning crfsuite

根据我对jcrfsuite示例中给出的POS标记示例的理解。训练文件以制表符分隔,第一个标记是标签。但我没有得到BigCluster |事情。有人可以帮助我如何在训练档案中指定令牌。

以下示例:

BigCluster | 00 BigCluster | 0000 BigCluster | 000000 BigCluster | 00000000 BigCluster | 0000000000 BigCluster | 000000000000 BigCluster | 00000000000000 BigCluster | 0000000000000000 NextBigCluster | 0100 NextBigCluster | 01000101 NextBigCluster | 010001011111 POSTAGDict | D POSTagDict | N POSTagDict | ^ POSTagDict | $ POSTagDict | G NextPOSTag | V 1gramSuff | i 1gramPref | i prevword | prevcurr || i nextword |预测nextword |预测currnext | i |预测Word | I Lower | i Xxdshape | X charclass | 1,first-shortcap prevnext || predict t = 0

测试文件格式:

! BigCluster | 01 BigCluster | 011011 BigCluster | 01101100 BigCluster | 0110110011 BigCluster | 011011001100 BigCluster | 01101100110000 BigCluster | 0110110011000000 NextBigCluster | 1000 NextBigCluster | 10001000 NextBigCluster | 100010000000 POSTagDict | V NextPOSTag |,metaph_POSDict | N 1gramSuff | n 2gramSuff | nn 3gramSuff | mnn 4gramSuff | mmnn 5gramSuff | mmmnn 6gramSuff | ammmnn 7gramSuff | aammmnn 8gramSuff | aaammmnn 9gramSuff | daaammmnn 1gramPref | d 2gramPref | da 3gramPref | daa 4gramPref | daaa 5gramPref | daaam 6gramPref | daaamm 7gramPref | daaammm 8gramPref | daaammmn 9gramPref | daaammmnn prevword | prevcurr || daaammmnn nextword |。 nextword |。 currnext | daaammmnn |。 Word | Daaammmnn Lower | daaammmnn Xxdshape | Xxxxxxxxx charclass | 1,2,2,2,2,2,2,2,2,first-initcap prevnext ||。 t = 0时

2 个答案:

答案 0 :(得分:1)

标签之后指定的是功能名称和功能值列表。 它是稀疏表示而不是表格表示。

BigCluster只是其中一项功能,仅与特定示例相关。如果您从头开始训练,您应该创建自己的功能。

答案 1 :(得分:0)

我注意到CRFsuite不在乎命名约定,也不在乎标签和属性的功能设计,因为它们将它们视为字符串。

CRFsuite在不知道标签和属性含义的情况下学习属性和标签之间的关联权重(功能权重)。换句话说,只要在数据集中编写标签和属性名称,就可以设计和使用任意功能,只需为示例找到最佳的可能属性,然后使用不同的属性和功能集进行一些实验。而且您会很高兴。