Question

我正在为捷克语的单词表演Bigram。我能够使用Python生成Bi-gram。问题在于捷克语中的非英语字符。

输入：

republikánlogiziiprotiznovuzvoleníObamy。

执行Bigram，输出

[['republik \ xc3 \ xa1n'，'strategii']，['strategii'，'proti']，['proti'，'znovuzvolen \ xc3 \ xad']，['znovuzvolen \ xc3 \ xad'，'Obamy']]

捷克语的特殊字母在bigram中转换为\ xc3 \ xad。应该使用代码进行哪些更改，以便在输出中以正确的方式获取特殊字母

Answer 1

数据是正确的，但是当您将列表转换为字符串时，使用repr为列表项准备输出，而不是str。比较：

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>