Stanford POS-tagger的数据格式

时间:2015-03-11 14:59:08

标签: stanford-nlp dataformat

我正在根据自己的数据重新训练Stanford POS-tagger。我已经使用以下一个令牌每行格式对相同的数据训练了两个其他标记:

word1_TAG
word2_TAG
word3_TAG
word4_TAG
.

斯坦福标记器的格式是否正常,或者它是否需要每行一句?

word1_TAG word2_TAG word3_TAG word4_TAG .

使用第一种格式进行培训和测试会影响斯坦福标记结果吗?

1 个答案:

答案 0 :(得分:0)

每行应该有一个句子(第二个例子)。

使用第一种格式肯定会影响标记结果:您将有效地构建一个unigram标记器,其中所有标记都完成而没有任何句子上下文。