使用Selenium和Python从表中爬出超链接

时间:2018-08-09 06:32:57

标签: python html selenium web-scraping

我的这张表有两列,行数未知。我正在尝试使用Selenium(与Python)将所有链接抓取到一个列表中。

enter image description here

目标:将第二列中的所有链接(每行一个)放入列表中。

elements = driver.find_elements_by_xpath('') #for the table
for element in elements:
    print(element.text)

\#Output is:
Penn Affiliated:
Delaware Valley Regional Planning Commission Congestion Management Intern
Contracts Intern
Transit, Bike, and Pedestrian Planning
Fabrication Lab Laser Cutter Operator
...

这将打印所有行。现在我不确定如何从第二列和所有行中获取链接。

这是表格的HTML:

enter image description here

非常感谢!

2 个答案:

答案 0 :(得分:1)

要从您的元素获取href属性的值,可以执行以下操作:

elements = driver.find_elements_by_xpath("//table[@class = 'search']//td/a") 
for element in elements:
    print(element.get_attribute("href"))

答案 1 :(得分:0)

好吧,您没有提供URL,但是基本上应该是这样。

import lxml.html
doc = lxml.html.parse('http://www.gpsbasecamp.com/national-parks')
links = doc.xpath('//a[@href]')
for link in links:
    print(link.attrib['href'])