Question

我正在学习使用python进行网络抓取，并使用一些库（Beautifulsoup和请求）来获取结果。但是，当我尝试提取任何网页的数据时，比如说sears产品网址-https://www.sears.com/tradesman-talg1670-70-inch-economy-line-aluminum-gull/p-00937054000P?plpSellerId=Sears&prdNo=1&blockNo=1&blockType=G1，因此在这里我没有完整的页面源，我需要获取产品标题，价格，规格等。

我在浏览器的控制台中找到了一个URL，它包含所有json格式的产品详细信息，但我仍然无法提取这些json数据。这是json格式的网址-https://www.sears.com/content/pdp/config/products/v1/products/04403935070P?site=sears

以下是提取源代码的代码：

from bs4 import BeautifulSoup
import requests
import re
import json

s = requests.session()  #start requests session    
page = s.get("https://www.sears.com/tradesman-talg1670-70-inch-economy-line-aluminum-gull/p-00937054000P?plpSellerId=Sears&prdNo=1&blockNo=1&blockType=G1")  #get the page
soup = BeautifulSoup(page.content) 

#print(soup.encode("utf-8"))
print(soup)

请检查这些代码，并向我建议更好的解决方案，谢谢。

无法使用Python获取网页的完整源代码

0 个答案: