我正在使用urllib.request和Beautiful汤来尝试抓取该网站,但是生成的html与查看源页面时显示的html完全不同。我收到的那个似乎也包含javascript和json。
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup
url='https://seekingalpha.com/symbol/SKX/income-statement?figure_type=quarterly'
user_agent = 'Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46'
req = Request(url, headers={'User-Agent': user_agent})
page_html = urlopen(req).read()
page_soup = soup(page_html, "html.parser")
没有user_agent,我收到一个HTTPError禁止 并收到一个不同的结果html
当前使用Python 3.6