我想从网站获取信息。这是简单的代码。
import urllib.request
response = urllib.request.urlopen('http://www.lamudi.com.ph/buy/?page=1&size=30')
html = response.read()
我得到urllib.error.HTTPError: HTTP Error 416: Requested Range Not Satisfiable
答案 0 :(得分:2)
这个特定的网站不希望机器人阅读内容。 urllib.request.urlopen
的问题在于它在4xx或5xx返回代码上引发异常,这使得很难看到服务器的实际响应。一个更好的图书馆是requests
如果收到回复,您会看到:
当你浏览http:// ....关于你的浏览器的一些事情让我们认为你是一个机器人。
如果您可以使用他们的信息,请与他们联系,但如果这是供您个人使用,您可以尝试将用户代理更改为浏览器使用的用户代理。