Standford NER CRF分类器的培训数据应采用什么格式?

时间:2019-05-06 10:34:35

标签: python parsing text nlp stanford-nlp

我正在尝试使用斯坦福https://www.[website_name].com/wp-json/wc/v3/products?[consumer_key_here]&[consumer_secret_key_here]&per_page=5&page=1 [website_name] = Your Website Name Here [consumer_key_here] = Your Consumer Key Here [consumer_secret_key_here] = Your Consumer Secret Key Here 来训练自己的地址分类器模型,但是性能非常低。我对自己训练过的训练数据的格式感到困惑。培训数据通常是地​​区,城市,省份及其各自标签的列表。但是该模型并未将相应的地址标签标记为其令牌。

培训数据的格式如下:

  • 巴拉特省
  • 马鲁库省
  • 马鲁库省
  • KABUPATEN REGENCY
  • SIMEULUE REGENCY
  • KABUPATEN REGENCY
  • ACEH更新

这只是csv格式的训练数据的示例,有3个标签省,州和地方

这是标记令牌的输出:

OUTPUT of the Stanford NER Tgger

您可以将所有令牌标记为DISTRICT,尽管我具有REGENCY,DISTRICT和PROVINCE作为标记数据。

我想知道我的训练数据格式是否正确,仅适用于句子级别的上下文数据,因为我看到了斯坦福CRF-NER在句子级别上的效果很好。

1 个答案:

答案 0 :(得分:0)

由于您要进行地址分类,因此建议您使用实际的(带标签的)地址而不是包含摄政,区,省列表的字典来训练模型。然后,CRF在尝试根据您配置的功能对其进行标记时,将考虑上下文信息。

您使用CoNLL样式数据来训练CRF。

-DOCSTART-    O 

5461    O
North   O
Ave     O
Miami   DISTRICT
Florida PROVINCE
88754   O

8888    O
South   O
Drive   O
Miami   DISTRICT
Florida PROVINCE
99965   O

将更适当地使用地区,省份列表作为公报。