应用错误收集

我正在使用urllib.request和Beautiful汤来尝试抓取该网站，但是生成的html与查看源页面时显示的html完全不同。我收到的那个似乎也包含javascript和json。

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup

url='https://seekingalpha.com/symbol/SKX/income-statement?figure_type=quarterly'
user_agent = 'Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46'

req = Request(url, headers={'User-Agent': user_agent})
page_html = urlopen(req).read()
page_soup = soup(page_html, "html.parser")

没有user_agent，我收到一个HTTPError禁止并收到一个不同的结果html

当前使用Python 3.6

用urllib.request刮擦HTML会得到不同的HTML

0 个答案: