Flipkart Review Scraping - 数据不在某些页面后出现,为什么?

时间:2018-03-18 07:28:53

标签: python python-3.x selenium-webdriver scraper

我正在尝试使用python和bs4为Flipkart构建一个爬虫。我也成功地这样做了,但是在试图超过13-14页的评论时出现了问题。直到13页刮刀工作正常,但一旦我到达页面号。 14,它表示某些内容不正确并且分页(页面上没有任何内容,但只有一条消息说某些内容不正确)。看看下面的截图:

enter image description here

因此,在尝试弄清楚这里是否有任何模式的同时,我不断刷新页面,并发现有时数据可能在5次刷新后或30次刷新后出现(没有固定的模式),因此我写了这个部分代码来处理这种情况:

for count in range(1,6521):
    nav_btns = browser.find_elements_by_class_name('_33m_Yg')

    button = ""

    for btn in nav_btns:
        number = int(btn.text)
        if(number==count):
            button = btn
            break

    try :
        button.send_keys(Keys.RETURN)
    except Exception as e :
        break   

    ##Handling the exception cases. [Something is not right.]
    isTImedout = True
    while isTImedout:
        try:
            WebDriverWait(browser, timeout=10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "_2xg6Ul")))
            isTImedout = False
            print("Scraping... %d" % page)
        except TimeoutException as ex:
            browser.refresh()
            isTImedout = True

最后一次工作正常,我成功地抓了100多页。但是今天当我尝试再次使用代码时,代码只是保留了刷新页面14号并且根本没有数据出现在该页面上,我试图在第14页之后刷新其他页面,但是没有任何内容出现。 Here是我要抓的页面。

我想了解这是什么类型的问题,我该如何解决这个问题。

0 个答案:

没有答案