utf-8加上问号

时间:2011-03-20 17:24:21

标签: python unicode encoding utf-8

我有一个站点,通过使用utf-8将其解码为unicode来显示用户输入。但是,用户输入可以包含二进制数据,显然并不总是能够被utf-8“解码”。

我正在使用Python,我收到一条错误消息:

  

'utf8'编解码器无法解码位置0中的字节0xbf:意外的代码字节。你传递了'\ xbf \ xcd ...

是否有一种标准的有效方法将这些不可解码的字符转换为问号?

如果答案使用Python,那将是最有帮助的。

2 个答案:

答案 0 :(得分:6)

尝试:

inputstring.decode("utf8", "replace")

请参阅here以获取参考资料

答案 1 :(得分:1)

我认为你在寻找的是:

str.decode('utf8','ignore')

应该删除无效字节而不是引发异常