我已经在下午阅读了很多有关此问题的主题,但不幸的是,我目前没有足够的解决方案:(
我尝试抓取该网站:https://www.kumon.co.uk/find-a-tutor/
我使用此代码来存储不同商店的每个URL。为此,我必须在下一页上进行迭代,直到最后一页。
这是我使用的代码:
def get_urls(url) -> list:
# Get all URLs to the store pages
options = Options()
# options.add_argument('--headless')
path_chromedriver = Path(__file__).parent.parent.joinpath('externals/chromedriver')
browser = webdriver.Chrome(str(path_chromedriver), chrome_options=options)
browser.get(url)
inputElement = browser.find_element_by_id("centre_search")
inputElement.send_keys('london')
inputElement.send_keys(Keys.ENTER)
store_url = []
links = browser.find_elements_by_link_text('Choose Centre')
for link in links:
href = link.get_attribute('href')
store_url.append(href)
while browser.find_element_by_xpath("//ul[@class='pagination']//li[last()]/a/small"):
WebDriverWait(browser, 20).until(
EC.element_to_be_clickable((By.XPATH, "//ul[@class='pagination']//li[last()]/a/small"))).click()
links = browser.find_elements_by_link_text('Choose Centre')
for link in links:
href = link.get_attribute('href')
store_url.append(href)
return store_url
不幸的是我得到
selenium.common.exceptions.StaleElementReferenceException:消息:陈旧元素引用:元素未附加到页面文档
使用Try ...除了不是一个好的解决方案,我正在寻找一个可靠的解决方案。 我应该从Chrome切换到Firefox吗?
先谢谢了, 尼古拉斯。
答案 0 :(得分:1)
不确定您为什么认为try
/ except
是一个不好的解决方案,但这正是您所需要的:
from selenium.common.exceptions import WebDriverException
def get_urls(url) -> list:
# Get all URLs to the store pages
options = Options()
# options.add_argument('--headless')
path_chromedriver = Path(__file__).parent.parent.joinpath('externals/chromedriver')
browser = webdriver.Chrome(str(path_chromedriver), chrome_options=options)
browser.get(url)
inputElement = browser.find_element_by_id("centre_search")
inputElement.send_keys('london')
inputElement.send_keys(Keys.ENTER)
links = browser.find_elements_by_link_text('Choose Centre')
store_url = [link.get_attribute("href") for link in links]
while True:
try:
WebDriverWait(browser, 10).until(EC.element_to_be_clickable((By.XPATH, "//li[last()][not(normalize-space(@class))]/a[@data-page]"))).click()
WebDriverWait(browser, 10).until(EC.staleness_of(links[-1]))
except WebDriverException:
break
links = WebDriverWait(browser, 10).until(EC.visibility_of_all_elements_located((By.LINK_TEXT, 'Choose Centre')))
store_url.extend([link.get_attribute("href") for link in links])
return store_url