Question

我正在尝试废弃此链接https://www.flipkart.com/samsung-galaxy-nxt-gold-32-gb/p/itmemzd4gepexjya?pid=MOBEMZD4KHRF5VZX中存在的所有不同图片的网址。我正在尝试使用python的beautifulsoup模块。但这种方法没有成功。我无法理解flipkart.com的代码结构以及为什么它没有返回所需的数据。我正在尝试的代码如下

from bs4 import BeautifulSoup
import urllib
from pprintpp import pprint
import pandas as pd
import requests
from time import sleep

x=requests.get("https://www.flipkart.com/samsung-galaxy-nxt-gold-32-gb/p/itmemzd4gepexjya?pid=MOBEMZD4KHRF5VZX").content
#x= urllib._urlopener("https://www.flipkart.com/jbl-t250si-on-the-ear-headphone/p/itmefbgezsc72mgt?pid=ACCEFBGAK5ZDTBF7&")
soup2 = BeautifulSoup(x, 'html.parser')
data=[]
for j in soup2.find_all('img', attrs={'class':"sfescn"}):
    data+=[j]
    print data

Answer 1

我可以清楚地看到页面源代码中没有移动图像的链接。所以我建议使用工具Fiddler或浏览器开发人员的控制台来跟踪实际数据的来源，最有可能是来自json响应类型请求。我不熟悉beautifulsoup，我一直在使用scrapy。

如何废弃flipkart中存在的产品图像的所有链接

1 个答案: