如何刮取https页面?

时间:2014-05-01 21:06:25

标签: python lxml scrape

我正在使用带有' lxml'的python脚本。和'请求'刮一个网页。我的目标是从页面中获取元素并下载它,但内容位于HTTPS页面上,并且在尝试访问页面中的内容时出现错误。我确定我必须包含某种证书或身份验证,但我很难找到合适的资源。我正在使用:

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'))

,错误是:

requests.exceptions.SSLError: [Errno 185090050] _ssl.c:340: error:0B084002:x509 certificate routines:X509_load_cert_crl_file:system lib

1 个答案:

答案 0 :(得分:6)

verify=False添加到GET请求可以解决问题。

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'), verify=False)