Question

我一直在为我的学生准备一个简单的Python脚本示例，我发现很难解决以下问题。我正在使用utf8编码，因为我希望他们使用波兰语字符，例如 Ł，±，ś。现在，该脚本应该从用户获取名称并打印它在由*制成的矩形中。所以这就是我想要向他们展示的内容：

imie=raw_input('Podaj swoje imię: ') #Give your name

dl=len(imie)

print '*'*(dl + 4)
print '*' + ' '*(dl + 2) + '*'
print '* ' + imie + ' *'
print '*' + ' '*(dl + 2) + '*'
print '*'*(dl + 4)

问题是，对于诸如Antoś Mąka之类的名称，dl变量值应为11，但它是13，因为ś和±符号计算为2。是否可以强制len()函数将其计算为1？

Answer 1

在Python 2. *中使用decode：

dl=len(imie.decode("utf-8"))

Answer 2

将utf8中的数据解码为unicode对象。然后获取unicode的len。

imie=raw_input('Podaj swoje imię: ').decode('utf8') #Give your name
dl=len(imie)
print dl

Answer 3

当您使用str

时，您正在使用unicode

imie = unicode(raw_input('....').decode('utf-8'))

使用Python计算UTF8字符

3 个答案: