使用带有webdriver.find函数的python过滤使用硒进行Web报废

时间:2019-07-19 20:51:31

标签: python html selenium web-scraping

我正在过滤此网站上出现的固定收益产品:https://yubb.com.br/investimentos/renda-fixa?investment_type=cdb&months=3&principal=10000000.0&sort_by=minimum_investment

基本上,页面上有一些卡片,我想为每个页面知道出现多少张卡片。例如,选择cdb作为类型和3个月,它将显示16张卡片,但是如果再输入几个月或产品类型,则可能会出现较少的卡片。

现在,我知道查看“ investmentCardContainer__footer”是一个类,但是它将显示多少个页面,但是卡片的数量看起来像是样式,我不知道如何使用Selenium Webdriver找到它。查找功能。

以下是我要寻找的提示:

https://imgur.com/a/8B5TrMe

获得此数量的卡并在循环中使用它以将卡信息汇总到向量中的想法。

    vetor = ["cdb","lca","lci"]
    dataset_boxes =[]
    now = time.time()
    for i in vetor:
      options = Options()
      options.add_argument('--headless')
      url = 'https://yubb.com.br/investimentos/renda-fixa?investment_type={}&months=12\
        &principal=1000000.0&sort_by=net_return'.format(i)
      driver = webdriver.Chrome("C:\\Users\\yourpath\\Desktop\\PYTHON\\chromedriver.exe",options=options)
      driver.get(url)
      time.sleep(1)
      num_pages = driver.find_element_by_class_name("investmentCardContainer__footer").text
      list_pages = Convert(num_pages)
      last_page  = int(list_pages[len(list_pages)-3])
      driver.quit()
        for j in range(1,last_page+1):
          url2 = 'https://yubb.com.br/investimentos/renda-fixa?collection_page={}&investment_type={}&months=12\
            &principal=1000000.0&sort_by=net_return'.format(j,i)
          driver = webdriver.Chrome("C:\\Users\\yourpath\\Desktop\\PYTHON\\chromedriver.exe",options=options)
          driver.get(url2)
          num_boxes  = driver.find_element_by_class_name("investmentCardContainer__body").text
          list_boxes = Convert(num_boxes)
          dataset_boxes.append(list_boxes)
          driver.quit()
    print('idk')
    later = time.time()
    difference = int(later - now)
    print('Processo finalizado em {} segundos.'.format(difference)) 

1 个答案:

答案 0 :(得分:1)

使用WebDriverWait并跟随xpath获得no of pages计数。

print(WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.XPATH,'(//span[@class="page"]//a)[last()]'))).text)

您需要具有以下导入才能执行以上代码。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

对于此链接:https://yubb.com.br/investimentos/renda-fixa?investment_type=cdb&months=3&principal=10000000.0&sort_by=minimum_investment

它应该返回:8