Question

我正在使用Python NLTK标记，而我的输入文本是非印地语。为了标记我的输入文本，必须先对其进行训练。

我的问题是如何训练数据？

我正在使用stackoverflow建议的这行代码。

train_data = indian.tagged_sents('hindi.pos')

*非印地语数据输入如何。

Answer 1

简短的回答是：训练标记器需要标记语料库。

必须根据某些现有模型完成分配词性标签。不幸的是，与查找句子边界等问题不同，没有办法凭空挑选它们。有一些实验方法试图使用并行文本和机器翻译对齐算法来分配词性，但是所有真正的POS标记必须在已经标记的文本上进行训练。

显然，您没有为未命名的语言添加标记语料库，因此如果您想构建标记器，则需要查找或创建一个语料库。创建标记语料库是一项重大任务，因为您需要大量培训材料才能获得任何体面的表现。可能有方法来引导＆＃34;一个标记的语料库（将一个质量差的标记器放在一起，这样可以更容易地手工重置结果），但这一切都取决于你的情况。

在NLTK Python中训练数据集

1 个答案: