我正在尝试用印度语语料库训练nltk训练师。我主要针对telugu.pos
我跟着http://nltk-trainer.readthedocs.io/en/latest/train_tagger.html接受了训练。这是快照
当我尝试使用泰卢固语文本进行测试时。 నా పేరు కరీం ఉంది. నేను భారత ఆహార ప్రేమ.
,英文为My name is Karim. I love Indian food.
。它给出了这个错误。
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe0 in position 0: ordinal not in range(128)
我是不是错了?
修改
我编辑了文字
sent = "నా పేరు కరీం ఉంది. నేను భారత ఆహార ప్రేమ.".decode('utf-8')
现在它给出了像
这样的结果>>> text = nltk.word_tokenize(sent)
>>> text
[u'\u0c28\u0c3e', u'\u0c2a\u0c47\u0c30\u0c41', u'\u0c15\u0c30\u0c40\u0c02', u'\u0c09\u0c02\u0c26\u0c3f', u'.', u'\u0c28\u0c47\u0c28\u0c41', u'\u0c2d\u0c3e\u0c30\u0c24', u'\u0c06\u0c39\u0c3e\u0c30', u'\u0c2a\u0c4d\u0c30\u0c47\u0c2e', u'.']
>>> nltk.pos_tag(text)
[(u'\u0c28\u0c3e', 'JJ'), (u'\u0c2a\u0c47\u0c30\u0c41', 'NNP'), (u'\u0c15\u0c30\u0c40\u0c02', 'NNP'), (u'\u0c09\u0c02\u0c26\u0c3f', 'NNP'), (u'.', '.'), (u'\u0c28\u0c47\u0c28\u0c41', 'VB'), (u'\u0c2d\u0c3e\u0c30\u0c24', 'JJ'), (u'\u0c06\u0c39\u0c3e\u0c30', 'NNP'), (u'\u0c2a\u0c4d\u0c30\u0c47\u0c2e', 'NNP'), (u'.', '.')]
如何将此内容打印成原始语言?