在NLTK Python中训练数据集

时间:2015-05-31 16:39:48

标签: python nltk

我正在使用Python NLTK标记,而我的输入文本是非印地语。 为了标记我的输入文本,必须先对其进行训练。

我的问题是如何训练数据?

我正在使用stackoverflow建议的这行代码。

train_data = indian.tagged_sents('hindi.pos') 

*非印地语数据输入如何。

1 个答案:

答案 0 :(得分:0)

简短的回答是:训练标记器需要标记语料库。

必须根据某些现有模型完成分配词性标签。 不幸的是,与查找句子边界等问题不同,没有办法凭空挑选它们。有一些实验方法试图使用并行文本和机器翻译对齐算法来分配词性,但是所有真正的POS标记必须在已经标记的文本上进行训练。

显然,您没有为未命名的语言添加标记语料库,因此如果您想构建标记器,则需要查找或创建一个语料库。创建标记语料库是一项重大任务,因为您需要大量培训材料才能获得任何体面的表现。可能有方法来引导"一个标记的语料库(将一个质量差的标记器放在一起,这样可以更容易地手工重置结果),但这一切都取决于你的情况。