我正在尝试使用斯坦福https://www.[website_name].com/wp-json/wc/v3/products?[consumer_key_here]&[consumer_secret_key_here]&per_page=5&page=1
[website_name] = Your Website Name Here
[consumer_key_here] = Your Consumer Key Here
[consumer_secret_key_here] = Your Consumer Secret Key Here
来训练自己的地址分类器模型,但是性能非常低。我对自己训练过的训练数据的格式感到困惑。培训数据通常是地区,城市,省份及其各自标签的列表。但是该模型并未将相应的地址标签标记为其令牌。
培训数据的格式如下:
这只是csv格式的训练数据的示例,有3个标签省,州和地方
这是标记令牌的输出:
您可以将所有令牌标记为DISTRICT,尽管我具有REGENCY,DISTRICT和PROVINCE作为标记数据。
我想知道我的训练数据格式是否正确,仅适用于句子级别的上下文数据,因为我看到了斯坦福CRF-NER
在句子级别上的效果很好。
答案 0 :(得分:0)
由于您要进行地址分类,因此建议您使用实际的(带标签的)地址而不是包含摄政,区,省列表的字典来训练模型。然后,CRF在尝试根据您配置的功能对其进行标记时,将考虑上下文信息。
您使用CoNLL样式数据来训练CRF。
-DOCSTART- O
5461 O
North O
Ave O
Miami DISTRICT
Florida PROVINCE
88754 O
8888 O
South O
Drive O
Miami DISTRICT
Florida PROVINCE
99965 O
将更适当地使用地区,省份列表作为公报。