我正在使用Python NLTK标记,而我的输入文本是非印地语。 为了标记我的输入文本,必须先对其进行训练。
我的问题是如何训练数据?
我正在使用stackoverflow建议的这行代码。
train_data = indian.tagged_sents('hindi.pos')
*非印地语数据输入如何。
答案 0 :(得分:0)
简短的回答是:训练标记器需要标记语料库。
必须根据某些现有模型完成分配词性标签。 不幸的是,与查找句子边界等问题不同,没有办法凭空挑选它们。有一些实验方法试图使用并行文本和机器翻译对齐算法来分配词性,但是所有真正的POS标记必须在已经标记的文本上进行训练。
显然,您没有为未命名的语言添加标记语料库,因此如果您想构建标记器,则需要查找或创建一个语料库。创建标记语料库是一项重大任务,因为您需要大量培训材料才能获得任何体面的表现。可能有方法来引导"一个标记的语料库(将一个质量差的标记器放在一起,这样可以更容易地手工重置结果),但这一切都取决于你的情况。