我在Python中使用BeautifulSoup库来从flipkart中抓取数据。 要从网站上删除的数据如下:
我实现了以下代码来获取交付日期:
import requests
from bs4 import BeautifulSoup
f = open("file3.txt",'w')
request = requests.get("http://www.flipkart.com/huawei-stainless-steel-black-leather-strap-smartwatch/p/itmeftxerghg4pqx?pid=SMWEFTXEXRDXMYGR&al=o3IgYeHw27sSnkNXR1et9sldugMWZuE7eGHgUTGjVrpdmSA7vzZ7axnEa%2FFU%2FfOBK%2FKVBvTcIys%3D&ref=L%3A4088879532713987740&srno=b_1").text
soup = BeautifulSoup(request)
for classs in soup.findAll('div',class_ = 'delivery'):
for li in classs.find_all('li'):
f.write(str(li.text))
f.close()
运行此代码,我在文本文件中得到以下输出:
"通常在6-7个工作日内送达。"
上面的文字根本不存在于html文件中。
我的猜测是"由#34;和其他人一样不常见。我不明白为什么"由"选项不会被废弃。
根据在线订购的经验,我认为按日期交付通常会根据订购的地点或时间而变化。这会影响吗? 有人可以帮忙吗?提前谢谢。
答案 0 :(得分:0)
只需在产品网址末尾添加密码作为请求参数即可。您现在应该看到该密码的交货日期。
原始
修饰