Question

我的这张表有两列，行数未知。我正在尝试使用Selenium（与Python）将所有链接抓取到一个列表中。

目标：将第二列中的所有链接（每行一个）放入列表中。

elements = driver.find_elements_by_xpath('') #for the table
for element in elements:
    print(element.text)

\#Output is:
Penn Affiliated:
Delaware Valley Regional Planning Commission Congestion Management Intern
Contracts Intern
Transit, Bike, and Pedestrian Planning
Fabrication Lab Laser Cutter Operator
...

这将打印所有行。现在我不确定如何从第二列和所有行中获取链接。

这是表格的HTML：

非常感谢！

Answer 1

要从您的元素获取href属性的值，可以执行以下操作：

elements = driver.find_elements_by_xpath("//table[@class = 'search']//td/a") 
for element in elements:
    print(element.get_attribute("href"))

Answer 2

好吧，您没有提供URL，但是基本上应该是这样。

import lxml.html
doc = lxml.html.parse('http://www.gpsbasecamp.com/national-parks')
links = doc.xpath('//a[@href]')
for link in links:
    print(link.attrib['href'])

使用Selenium和Python从表中爬出超链接

2 个答案: