我正在为捷克语的单词表演Bigram。我能够使用Python生成Bi-gram。问题在于捷克语中的非英语字符。
输入:
republikánlogiziiprotiznovuzvoleníObamy。
执行Bigram,输出
[['republik \ xc3 \ xa1n','strategii'],['strategii','proti'],['proti','znovuzvolen \ xc3 \ xad'],['znovuzvolen \ xc3 \ xad','Obamy']]
捷克语的特殊字母在bigram中转换为\ xc3 \ xad。 应该使用代码进行哪些更改,以便在输出中以正确的方式获取特殊字母
答案 0 :(得分:0)
数据是正确的,但是当您将列表转换为字符串时,使用repr
为列表项准备输出,而不是str
。比较:
>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>