Question

我有一个站点，通过使用utf-8将其解码为unicode来显示用户输入。但是，用户输入可以包含二进制数据，显然并不总是能够被utf-8“解码”。

我正在使用Python，我收到一条错误消息：

'utf8'编解码器无法解码位置0中的字节0xbf：意外的代码字节。你传递了'\ xbf \ xcd ...

是否有一种标准的有效方法将这些不可解码的字符转换为问号？

如果答案使用Python，那将是最有帮助的。

Answer 1

尝试：

inputstring.decode("utf8", "replace")

请参阅here以获取参考资料

Answer 2

我认为你在寻找的是：

str.decode('utf8','ignore')

应该删除无效字节而不是引发异常