不能刮掉交货日期'来自flipkart

时间:2016-04-18 03:28:18

标签: python beautifulsoup

我在Python中使用BeautifulSoup库来从flipkart中抓取数据。 要从网站上删除的数据如下:

HTML file that needs to be scraped

我实现了以下代码来获取交付日期:

    import requests
    from bs4 import BeautifulSoup

    f = open("file3.txt",'w')
    request = requests.get("http://www.flipkart.com/huawei-stainless-steel-black-leather-strap-smartwatch/p/itmeftxerghg4pqx?pid=SMWEFTXEXRDXMYGR&al=o3IgYeHw27sSnkNXR1et9sldugMWZuE7eGHgUTGjVrpdmSA7vzZ7axnEa%2FFU%2FfOBK%2FKVBvTcIys%3D&ref=L%3A4088879532713987740&srno=b_1").text
    soup = BeautifulSoup(request)
    for classs in soup.findAll('div',class_ = 'delivery'):
       for li in classs.find_all('li'):
           f.write(str(li.text))
    f.close()

运行此代码,我在文本文件中得到以下输出:

"通常在6-7个工作日内送达。"

上面的文字根本不存在于html文件中。

我的猜测是"由#34;和其他人一样不常见。我不明白为什么"由"选项不会被废弃。

this is how the data looks in the website

根据在线订购的经验,我认为按日期交付通常会根据订购的地点或时间而变化。这会影响吗? 有人可以帮忙吗?提前谢谢。