用urllib.request刮擦HTML会得到不同的HTML

时间:2018-06-21 02:32:06

标签: python html web-scraping urllib

我正在使用urllib.request和Beautiful汤来尝试抓取该网站,但是生成的html与查看源页面时显示的html完全不同。我收到的那个似乎也包含javascript和json。

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup

url='https://seekingalpha.com/symbol/SKX/income-statement?figure_type=quarterly'
user_agent = 'Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46'

req = Request(url, headers={'User-Agent': user_agent})
page_html = urlopen(req).read()
page_soup = soup(page_html, "html.parser")

没有user_agent,我收到一个HTTPError禁止 并收到一个不同的结果html

当前使用Python 3.6

0 个答案:

没有答案