我希望使用Python requests
模块发出请求。我有一个大型的网址数据库,我想下载。网址位于page.be/something/something.html
我得到了很多ConnectionError
。如果我在浏览器中搜索URL,则页面存在。
我的代码:
if not webpage.url.startswith('http://www.'):
new_html = requests.get(webpage.url, verify=True, timeout=10).text
我尝试下载的网页示例为carlier.be/categorie/jobs.html
。这给了我一个ConnectionError
,记录如下:
连接错误,网页不可用 “carlier.be/categorie/jobs.html”与网页_id“229998”
这里似乎有什么问题?为什么requests
无法建立连接,而我可以在浏览器中找到该页面?
答案 0 :(得分:1)
Requests
库要求您提供一个架构供它连接(' http://'部分网址)。确保每个网址前面都有http://或https://。您可能需要一个try / except块,您可以在其中找到requests.exceptions.MissingSchema
并再次使用"http://"
添加到网址前面。