在这里运行python2.7。我正在编写一个快速而肮脏的小脚本来进行一些Web抓取,我只是想让unicode处理程序忽略所有unicode错误。
也就是说,如果它只是删除它可以在程序中的任何地方转换为ascii的任何字符,我就完全没问题了。这只是我想要完成的一次性脚本: - )
是否有一些全球性的"忽略"变量我可以设置吗?
谢谢! / YGA
答案 0 :(得分:1)
如果它只是删除它可以在程序中的任何地方转换为ascii的任何字符,我就完全没法了
然后,您希望从ascii
编解码器明确create your Unicode objects,并指定ignore
错误:
input = unicode(input_bytes, encoding='ascii', errors='ignore')
有关正确处理Unicode的更多信息,请参阅Unicode HOWTO。
(为了编写新代码,除非你有一个很好的理由留下来,否则总是选择Python 3或更高版本。)