使用python中的BeautifulSoup从谷歌财务中搜集数据

时间:2017-03-23 17:46:46

标签: python web-scraping beautifulsoup google-finance

我试图从google finance from this link获取数据:

url = "https://www.google.com/finance/historical?cid=4899364&startdate=Dec+1%2C+2016&enddate=Mar+23%2C+2017&num=200&ei=4wLUWImyJs-iuASgwIKYBg"
request = urllib.request.Request(url,None,headers)
response = urllib.request.urlopen(request).read()
soup = BeautifulSoup(response, 'html.parser')
prices = soup.find_all("tbody")
print(prices)

我得到一个空列表。我也尝试了使用soup.find_all('tr')之类的替代方法,但我仍然无法成功检索数据。

编辑:

headers={'Host': 'www.google.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en-US,en;q=0.5',
'Connection': 'keep-alive'
}

1 个答案:

答案 0 :(得分:0)

问题在于html.parser。我改为使用lxml并且工作正常。还要求交换urllib。