我如何普遍忽略python中的所有unicode错误?

时间:2016-06-01 00:56:55

标签: python python-2.7 unicode

在这里运行python2.7。我正在编写一个快速而肮脏的小脚本来进行一些Web抓取,我只是想让unicode处理程序忽略所有unicode错误。

也就是说,如果它只是删除它可以在程序中的任何地方转换为ascii的任何字符,我就完全没问题了。这只是我想要完成的一次性脚本: - )

是否有一些全球性的"忽略"变量我可以设置吗?

谢谢! / YGA

1 个答案:

答案 0 :(得分:1)

  

如果它只是删除它可以在程序中的任何地方转换为ascii的任何字符,我就完全没法了

然后,您希望从ascii编解码器明确create your Unicode objects,并指定ignore错误:

input = unicode(input_bytes, encoding='ascii', errors='ignore')

有关正确处理Unicode的更多信息,请参阅Unicode HOWTO

(为了编写新代码,除非你有一个很好的理由留下来,否则总是选择Python 3或更高版本。)