我正在尝试使用python和bs4为Flipkart构建一个爬虫。我也成功地这样做了,但是在试图超过13-14页的评论时出现了问题。直到13页刮刀工作正常,但一旦我到达页面号。 14,它表示某些内容不正确并且分页(页面上没有任何内容,但只有一条消息说某些内容不正确)。看看下面的截图:
因此,在尝试弄清楚这里是否有任何模式的同时,我不断刷新页面,并发现有时数据可能在5次刷新后或30次刷新后出现(没有固定的模式),因此我写了这个部分代码来处理这种情况:
for count in range(1,6521):
nav_btns = browser.find_elements_by_class_name('_33m_Yg')
button = ""
for btn in nav_btns:
number = int(btn.text)
if(number==count):
button = btn
break
try :
button.send_keys(Keys.RETURN)
except Exception as e :
break
##Handling the exception cases. [Something is not right.]
isTImedout = True
while isTImedout:
try:
WebDriverWait(browser, timeout=10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "_2xg6Ul")))
isTImedout = False
print("Scraping... %d" % page)
except TimeoutException as ex:
browser.refresh()
isTImedout = True
最后一次工作正常,我成功地抓了100多页。但是今天当我尝试再次使用代码时,代码只是保留了刷新页面14号并且根本没有数据出现在该页面上,我试图在第14页之后刷新其他页面,但是没有任何内容出现。 Here是我要抓的页面。
我想了解这是什么类型的问题,我该如何解决这个问题。