我正在构建一个小型网站爬虫,我遇到了一些问题。第一个是url中的Unicode字符
假设我有以下网址:http://putlocker.is/actor/Juan_Fern%C3%A1ndez
我的代码是:
try:
connection = urllib.urlopen(self.__link)
get = connection.read().decode('utf8')
except:
if UnicodeDecodeError:
print("UnicodeDecodeError !!!")
我正在谈论原始链接,而不是关于编码的链接
答案 0 :(得分:1)
您的错误处理方式似乎是错误的。 if语句UnicodeDecodeError
下的表达式将始终为True。您可能应该将其更改为
try:
...
except UnicodeDecodeError:
#handle error
在你的情况下,任何错误都被吞下,所以你甚至看不到实际的错误。