如何从以下html中提取数据?

时间:2018-06-18 09:47:18

标签: python-3.x selenium xpath css-selectors webdriverwait

我想要提取数据的Html是:

  <div class="infoMessageInner">
    <p>
      <span ng-bind-html="servicesCtrl.texts.addressInfo" class="ng-binding">
        Fiber är beställd till adressen. Tjänsterna kan du beställa när installationen är färdig.
      </span>
      <span ng-show="servicesCtrl.address.status === 'Orderable'" class="ng-hide">
        <a ng-click="servicesCtrl.preScrollToVerticalPosition('checkout', 'checkout', '/checkoutFiber', undefined, 'Checkout fiber')">Till&nbsp;fiberbeställningen
        </a>
      </span>
      <span ng-show="servicesCtrl.address.status === 'Inquireable'" class="ng-hide">
        <a ng-click="servicesCtrl.preScrollToVerticalPosition('checkout', 'checkout', '/inquiry', undefined, 'Inquiry')">Till&nbsp;intresseanmälan</a>
      </span>
    </p>
  </div>

**我想仅从第一个跨度中提取数据。到目前为止,我已经发布并获得了解决方案,但问题仍然存在,我得到了硒网元素的空列表。 **

代码段是:(使用Python-Selenium)

driver.find_elements_by_css_selector('div.infoMessageInner > p')
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div.infoMessageInner > p')))
data = driver.find_elements_by_css_selector('div.infoMessageInner > p')

请帮助并抱歉发布此类问题,因为我正在学习硒。

3 个答案:

答案 0 :(得分:1)

提取文本Fiberärbeställd直到adressen。 Tjänsternakandubeställanäinstallationenärfärdig。仅从第1个跨度开始,您只需要 WebDriverWait 文本出现在元素中,您就可以使用以下解决方案:

  • 进口:

    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support import expected_conditions as EC
    
  • 代码行:

    #Option 1 - text_to_be_present_in_element and CSS_SELECTOR
    element = WebDriverWait(driver, 20).until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, "div.infoMessageInner>p>span.ng-binding"), "Fiber är beställd till adressen"))
    #Option 2 - text_to_be_present_in_element_value and CSS_SELECTOR
    element = WebDriverWait(driver, 20).until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR, "div.infoMessageInner>p>span.ng-binding"), "Fiber är beställd till adressen"))
    #Option 3 - text_to_be_present_in_element and XPATH
    element = WebDriverWait(driver, 20).until(EC.text_to_be_present_in_element((By.XPATH, "//div[@class='infoMessageInner']/p/span[@class='ng-binding']"), "Fiber är beställd till adressen"))
    #Option 4 - text_to_be_present_in_element_value and XPATH
    element = WebDriverWait(driver, 20).until(EC.text_to_be_present_in_element_value((By.XPATH, "//div[@class='infoMessageInner']/p/span[@class='ng-binding']"), "Fiber är beställd till adressen"))
    
  • 文字将是:

    Fiber är beställd till adressen. Tjänsterna kan du beställa när installationen är färdig.
    

答案 1 :(得分:0)

如果html中不再有<span>个元素,您可以找到driver.find_element_by_tag_name('span').text的第一个span元素

答案 2 :(得分:0)

您可以在CSS选择器中使用以下绑定

.ng-binding

编辑:

driver.find_element_by_css_selector('.ng-binding').text