网站抓取帮助:在汤中找不到根div

时间:2019-05-31 20:17:38

标签: python html web beautifulsoup screen-scraping

像stockx和山羊这样的Web站点提供鞋类信息,但是我创建的汤中的html不包含我需要的信息,这些信息显然可以在页面主体下的root div中找到。当我手动检查页面时,根div充满了我要抓取的信息,但是查看页面源代码会显示一个空的根div。

def scrape(url):
    browser = "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0"
    header = {"User-Agent": browser,}
    req = urllib.request.Request(url, headers=header)
    html = urllib.request.urlopen(req).read()
    soup = BeautifulSoup(html, "html.parser")
    print(soup.findAll("div",{"id":"root"}))

作为股票搜索或山羊搜索结果网页的结果,产生[<div id="root"></div>]

如果有人可以让我知道如何提取所需信息,我将不胜感激。谢谢!

0 个答案:

没有答案