使用python

时间:2018-04-30 19:08:48

标签: python request lxml

我是Python的新手。我有一个工作代码来获取一个html页面并从中解析文本,但它最近停止了工作。也许网站发生了变化,但我无法再检索数据了。

感谢任何帮助。以下是以前使用过的代码。

from cookielib import CookieJar
from urllib2 import build_opener, HTTPCookieProcessor
from lxml import etree

user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
url = 'https://www.nasdaq.com/markets/stocks/symbol-change-history.aspx?sortby=EFFECTIVE&d'
cj = CookieJar()
opener = build_opener(HTTPCookieProcessor(cj))
opener.addheaders = [('User-Agent', user_agent),('Accept','text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8')]

page = opener.open(url, timeout=2)
parser = etree.HTMLParser()
rootDOM = etree.parse(page, parser)  
html = etree.tostring(rootDOM.getroot(), pretty_print=True, method='html')

我收到错误SSLError :('读取操作超时',)

0 个答案:

没有答案