Question

我正在尝试用印度语语料库训练nltk训练师。我主要针对telugu.pos

我跟着http://nltk-trainer.readthedocs.io/en/latest/train_tagger.html接受了训练。这是快照

当我尝试使用泰卢固语文本进行测试时。 నా పేరు కరీం ఉంది. నేను భారత ఆహార ప్రేమ.，英文为My name is Karim. I love Indian food.。它给出了这个错误。

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe0 in position 0: ordinal not in range(128)

我是不是错了？

修改

我编辑了文字

sent = "నా పేరు కరీం ఉంది. నేను భారత ఆహార ప్రేమ.".decode('utf-8')

现在它给出了像

这样的结果

>>> text = nltk.word_tokenize(sent)
>>> text
[u'\u0c28\u0c3e', u'\u0c2a\u0c47\u0c30\u0c41', u'\u0c15\u0c30\u0c40\u0c02', u'\u0c09\u0c02\u0c26\u0c3f', u'.', u'\u0c28\u0c47\u0c28\u0c41', u'\u0c2d\u0c3e\u0c30\u0c24', u'\u0c06\u0c39\u0c3e\u0c30', u'\u0c2a\u0c4d\u0c30\u0c47\u0c2e', u'.']
>>> nltk.pos_tag(text)
[(u'\u0c28\u0c3e', 'JJ'), (u'\u0c2a\u0c47\u0c30\u0c41', 'NNP'), (u'\u0c15\u0c30\u0c40\u0c02', 'NNP'), (u'\u0c09\u0c02\u0c26\u0c3f', 'NNP'), (u'.', '.'), (u'\u0c28\u0c47\u0c28\u0c41', 'VB'), (u'\u0c2d\u0c3e\u0c30\u0c24', 'JJ'), (u'\u0c06\u0c39\u0c3e\u0c30', 'NNP'), (u'\u0c2a\u0c4d\u0c30\u0c47\u0c2e', 'NNP'), (u'.', '.')]

如何将此内容打印成原始语言？

使用印度POS数据训练nltk tagger

0 个答案: