我成功地使用Selenium和PhantomJS来重新加载动态加载的无限滚动页面,如下例所示。但是如何修改它以便不是手动设置一些重载,程序在达到最低点时停止了?
reloads = 100000 #set the number of times to reload
pause = 0 #initial time interval between reloads
driver = webdriver.PhantomJS()
# Load Twitter page and click to view all results
driver.get(url)
driver.find_element_by_link_text("All").click()
# Keep reloading and pausing to reach the bottom
for _ in range(reloads):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(pause)
text_file.write(driver.page_source.encode("utf-8"))
text_file.close()
答案 0 :(得分:30)
您可以检查滚动是否在每个步骤中执行了任何操作。
lastHeight = driver.execute_script("return document.body.scrollHeight")
while True:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(pause)
newHeight = driver.execute_script("return document.body.scrollHeight")
if newHeight == lastHeight:
break
lastHeight = newHeight
这使用了一个静态等待数量,这是不好的,因为你不希望在它完成得更快时不必要等待,并且当动态负载由于某种原因太慢时你不希望脚本过早退出。
由于页面通常会将更多元素加载到列表中,因此您可以在加载之前检查列表的长度,并等待下一个元素加载。
对于Twitter,这可能是这样的:
while True:
elemsCount = browser.execute_script("return document.querySelectorAll('.stream-items > li.stream-item').length")
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
try:
WebDriverWait(browser, 20).until(
lambda x: x.find_element_by_xpath(
"//*[contains(@class,'stream-items')]/li[contains(@class,'stream-item')]["+str(elemsCount+1)+"]"))
except:
break
我使用了XPath表达式,因为PhantomJS 1.x在使用:nth-child()
CSS选择器时有时会出错。
Full version供参考。