从网站抓取数据,该网站使用Python从JavaScript / JSON数组(POST请求)加载数据

时间:2019-12-03 05:35:49

标签: python web web-scraping beautifulsoup scrapy

我正在尝试从this link抓取数据

我已经尝试过

from bs4 import BeautifulSoup
import urllib.request
import csv

# specify the url
urlpage =  'https://www.ikh.se/sysNet/getProductsJSON/getProductsJSONDB.aspx?' \ 
'sua=1&lang=2&navid=19277994'

# query the website and return the html to the variable 'page'
page = urllib.request.urlopen(urlpage)
# parse the html using beautiful soup and store in variable 'soup'
soup = BeautifulSoup(page, 'html.parser')
tag = soup.find('div', attrs={'class':'dnsCell'})
text = (''.join(tag.stripped_strings))
print (page)

我有HTML dom,但是缺少产品列表dom。实际上,我猜产品列表dom由this link请求的JSON数组管理,但是我不确定关于产品列表dom加载方法。我是对还是错。 我要从此site抓取所有产品详细信息,然后在Excel中导出。

1 个答案:

答案 0 :(得分:0)

请求库未加载Javascript。如果要下载完全渲染的网站,请使用硒库:https://selenium-python.readthedocs.io/