像stockx和山羊这样的Web站点提供鞋类信息,但是我创建的汤中的html不包含我需要的信息,这些信息显然可以在页面主体下的root div中找到。当我手动检查页面时,根div充满了我要抓取的信息,但是查看页面源代码会显示一个空的根div。
def scrape(url):
browser = "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0"
header = {"User-Agent": browser,}
req = urllib.request.Request(url, headers=header)
html = urllib.request.urlopen(req).read()
soup = BeautifulSoup(html, "html.parser")
print(soup.findAll("div",{"id":"root"}))
作为股票搜索或山羊搜索结果网页的结果,产生[<div id="root"></div>]
。
如果有人可以让我知道如何提取所需信息,我将不胜感激。谢谢!