我想从分页网站获取一些链接网址。我正在学习一些教程,因为我对Selenium(或Python)不是很熟悉。
无论如何,通过下面的循环,我可以从每个页面获得第一个网址,但每页需要获得10个网址:
browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
time.sleep(5)
x = 0
while (x < 5):
print(browser.find_element_by_xpath('//a[contains(text(),"Completo")]')).get_attribute("href")
browser.find_element_by_xpath("//td[2]/a").click() # Click on next button
time.sleep(5)
x += 1
要获取每页的所有网址,我尝试使用find_elements_by_xpath()
代替,但该函数返回一个列表,我收到一条错误消息,指出列表元素没有属性get_attribute
。
如果我删除了get属性部分,我确实每页有10行,但不是url格式。我得到了这种格式的每个页面的列表:
selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6dd0&gt ;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6d90&gt ;, selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6f90&gt;,selenium.webdriver.remote .webelement.WebElement对象位于0x7f3621cc6f50&gt ;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6ed0&gt ;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c62210&gt ;, selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c6a110&gt; ,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c6a690&gt;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c75950&gt ;, selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c75990&gt;
那么,如何构建一个获取网址然后转到下一页的循环等的正确方法呢?
感谢任何帮助。
答案 0 :(得分:5)
以下是完整的想法和实施:
注意:
time.sleep()
更好地explicitly wait for the desired element 1910
),此处我使用正则表达式\d+ de (\d+)
和capturing group (\d+)
其中{ {1}}匹配一个或多个数字\d+
属性,您只需循环遍历它们并在每个元素上调用href
(使用下面的"list comprehension")代码:
get_attribute()
打印:
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def extract_data(browser):
links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
return [link.get_attribute('href') for link in links]
browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)
# extract from the current (1) page
print "Page 1"
print extract_data(browser)
# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
print "Page %d" % page
next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()
print extract_data(browser)
print "-----"
答案 1 :(得分:1)
find_elements_by_xpath
返回没有webelements
方法的get_attribute
列表。您需要对该列表中的单个元素执行get_attribite
browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
time.sleep(5)
elements = browser.find_element_by_xpath('//a[contains(text(),"Completo")]'))
for element in elements:
print(element.get_attribute("href"))
browser.find_element_by_xpath("//td[2]/a").click() # Click on next button
time.sleep(5)