Python bigram - 外国脚本

时间:2013-03-05 17:11:58

标签: python nltk arabic bytestring

我发现使用Python的bigrams列表包含外来文本:阿拉伯语,俄语,波斯语

结果显示如下:('\ xd9 \ x85 \ xd9 \ x86 \ xd8 \ xa7 \ xd8 \ xb8 \ xd8 \ xb1 \ xd9 \ x87','\ xd9 \ x85 \ xd9 \ x88 \ xd8 \ xb3 \ xd9 \ X88 \ XDB \ x8c')

这个脚本叫什么,如何将其转换为阿拉伯语/俄语/波斯语。

我使用NLTK在MAC OS的终端上运行它。

1 个答案:

答案 0 :(得分:2)

这是一个包含utf-8编码文本的字节串:

In [5]: '\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87'.decode('utf-8')
Out[5]: u'\u0645\u0646\u0627\u0638\u0631\u0647'

In [6]: print '\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87'.decode('utf-8')         
مناظره