Question

我想从分页网站获取一些链接网址。我正在学习一些教程，因为我对Selenium（或Python）不是很熟悉。

无论如何，通过下面的循环，我可以从每个页面获得第一个网址，但每页需要获得10个网址：

browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
time.sleep(5)

x = 0
while (x < 5):
    print(browser.find_element_by_xpath('//a[contains(text(),"Completo")]')).get_attribute("href")
    browser.find_element_by_xpath("//td[2]/a").click() # Click on next button
    time.sleep(5)
    x += 1

要获取每页的所有网址，我尝试使用find_elements_by_xpath()代替，但该函数返回一个列表，我收到一条错误消息，指出列表元素没有属性get_attribute。

如果我删除了get属性部分，我确实每页有10行，但不是url格式。我得到了这种格式的每个页面的列表：

selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6dd0＆gt ;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6d90＆gt ;, selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6f90＆gt;，selenium.webdriver.remote .webelement.WebElement对象位于0x7f3621cc6f50＆gt ;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6ed0＆gt ;,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c62210＆gt ;, selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c6a110＆gt; ，selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c6a690＆gt;，selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c75950＆gt ;, selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c75990＆gt;

那么，如何构建一个获取网址然后转到下一页的循环等的正确方法呢？

感谢任何帮助。

Answer 1

以下是完整的想法和实施：

从页面底部的段落中获取最大页数
从当前页面中提取链接
从下一页循环到最大页面
在循环中，单击下一页链接并提取链接

注意：

代替time.sleep()更好地explicitly wait for the desired element
提取最大页面数量（在这种情况下为1910），此处我使用正则表达式\d+ de (\d+)和capturing group (\d+)其中{ {1}}匹配一个或多个数字
要从多个元素中获取\d+属性，您只需循环遍历它们并在每个元素上调用href（使用下面的"list comprehension"）
我不完全确定您想要抓取哪些链接，但我假设这些是指向页面上每个块底部文件的链接（链接到文件）

代码：

get_attribute()

打印：

import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


def extract_data(browser):
    links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
    return [link.get_attribute('href') for link in links]


browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")

# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)

# extract from the current (1) page
print "Page 1"
print extract_data(browser)

# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
    print "Page %d" % page

    next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()

    print extract_data(browser)
    print "-----"

Answer 2

find_elements_by_xpath返回没有webelements方法的get_attribute列表。您需要对该列表中的单个元素执行get_attribite

browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
time.sleep(5)

elements = browser.find_element_by_xpath('//a[contains(text(),"Completo")]'))
for element in elements: 
    print(element.get_attribute("href"))
browser.find_element_by_xpath("//td[2]/a").click() # Click on next button
time.sleep(5)

如何使用Selenium / Python在分页站点上抓取URL

2 个答案: