我正在尝试废弃此链接https://www.flipkart.com/samsung-galaxy-nxt-gold-32-gb/p/itmemzd4gepexjya?pid=MOBEMZD4KHRF5VZX中存在的所有不同图片的网址。我正在尝试使用python的beautifulsoup模块。但这种方法没有成功。我无法理解flipkart.com的代码结构以及为什么它没有返回所需的数据。 我正在尝试的代码如下
from bs4 import BeautifulSoup
import urllib
from pprintpp import pprint
import pandas as pd
import requests
from time import sleep
x=requests.get("https://www.flipkart.com/samsung-galaxy-nxt-gold-32-gb/p/itmemzd4gepexjya?pid=MOBEMZD4KHRF5VZX").content
#x= urllib._urlopener("https://www.flipkart.com/jbl-t250si-on-the-ear-headphone/p/itmefbgezsc72mgt?pid=ACCEFBGAK5ZDTBF7&")
soup2 = BeautifulSoup(x, 'html.parser')
data=[]
for j in soup2.find_all('img', attrs={'class':"sfescn"}):
data+=[j]
print data
答案 0 :(得分:3)
我可以清楚地看到页面源代码中没有移动图像的链接。 所以我建议使用工具Fiddler或浏览器开发人员的控制台来跟踪实际数据的来源,最有可能是来自json响应类型请求。 我不熟悉beautifulsoup,我一直在使用scrapy。