非英语单词的n-gram生成

时间:2015-12-09 17:34:22

标签: python non-ascii-characters n-gram non-english

我正在为捷克语的单词表演Bigram。我能够使用Python生成Bi-gram。问题在于捷克语中的非英语字符。

输入:

republikánlogiziiprotiznovuzvoleníObamy

执行Bigram,输出

[['republik \ xc3 \ xa1n','strategii'],['strategii','proti'],['proti','znovuzvolen \ xc3 \ xad'],['znovuzvolen \ xc3 \ xad','Obamy']]

捷克语的特殊字母在bigram中转换为\ xc3 \ xad。 应该使用代码进行哪些更改,以便在输出中以正确的方式获取特殊字母

1 个答案:

答案 0 :(得分:0)

数据是正确的,但是当您将列表转换为字符串时,使用repr为列表项准备输出,而不是str。比较:

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>