无法使用Python获取网页的完整源代码

时间:2018-10-01 10:03:24

标签: python python-3.x beautifulsoup python-requests

我正在学习使用python进行网络抓取,并使用一些库(Beautifulsoup和请求)来获取结果。但是,当我尝试提取任何网页的数据时,比如说sears产品网址-https://www.sears.com/tradesman-talg1670-70-inch-economy-line-aluminum-gull/p-00937054000P?plpSellerId=Sears&prdNo=1&blockNo=1&blockType=G1,因此在这里我没有完整的页面源,我需要获取产品标题,价格,规格等。

我在浏览器的控制台中找到了一个URL,它包含所有json格式的产品详细信息,但我仍然无法提取这些json数据。 这是json格式的网址-https://www.sears.com/content/pdp/config/products/v1/products/04403935070P?site=sears

以下是提取源代码的代码:

from bs4 import BeautifulSoup
import requests
import re
import json

s = requests.session()  #start requests session    
page = s.get("https://www.sears.com/tradesman-talg1670-70-inch-economy-line-aluminum-gull/p-00937054000P?plpSellerId=Sears&prdNo=1&blockNo=1&blockType=G1")  #get the page
soup = BeautifulSoup(page.content) 

#print(soup.encode("utf-8"))
print(soup)

请检查这些代码,并向我建议更好的解决方案,谢谢。

0 个答案:

没有答案