我正在Python中使用Selenium打开网页,并且试图从特定的下拉列表中获取值列表。假设下拉列表的HTML代码如下:
<select class="mdc-select__input" name="nouveau-num" data-msisdn-loaded="0"> <option value="" selected="selected"></option>
<option value="351 8320175">351 8320175</option>
<option value="351 8652736">351 8652736</option>
<option value="351 8783295">351 8783295</option>
<option value="351 8094085">351 8094085</option>
<option value="351 8861691">351 8861691</option>
<option value="351 8271705">351 8271705</option>
<option value="351 8970191">351 8970191</option>
<option value="351 8965848">351 8965848</option>
<option value="351 8353924">351 8353924</option>
<option value="351 8988158">351 8988158</option>
</select>
我想检索<option>
标记之间的所有值。我试图做一个browser.page_source
来返回网页的HTML源,然后做一个正则表达式(类似<option value="[0-9 ]*">
),但是结果为空。但是,由于某些原因,上面的HTML代码不在Selenium检索的HTML页面源代码中。有什么想法可以解决这个问题/目前的方法有什么问题吗?
答案 0 :(得分:1)
根据this brilliant answer用Regex解析HTML从来不是一个好主意。
您最好使用find_elements_by_css_selector
或find_elements_by_xpath
。
css选择器示例:
for tag in browser.find_elements_by_css_selector('select[name=nouveau-num] option'):
value = tag.get_attribute('value')
text = tag.text
答案 1 :(得分:0)
您可以创建一个Select
对象,并使用循环遍历选项的数量。
例如:
from selenium.webdriver.support.ui import Select
selector = Select(driver.find_element_by_name("nouveau-num"))
options = selector.options
for index in range(0, len(options)-1):
print(options[index])
我尝试了您提供的链接上的代码,加载下拉列表的值似乎有点延迟。另外,我忘记了options具有元素列表,因此您需要指定.text。最重要的是,By.NAME
的工作似乎比find_element_by_name
这是更正的代码:
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
dropdown = driver.find_element(By.NAME, "nouveau-num")
selector = Select(dropdown)
# Waiting for the values to load
element = WebDriverWait(driver,
10).until(EC.element_to_be_selected(selector.options[0]))
options = selector.options
for index in range(1, len(options)-1):
print(options[index].text)
使用此代码,我收到以下结果:
351 8631174
351 8586821
351 8014561
351 8831839
351 8957001
351 8673968
351 8612034
351 8585995
351 8438130