我的这张表有两列,行数未知。我正在尝试使用Selenium(与Python)将所有链接抓取到一个列表中。
目标:将第二列中的所有链接(每行一个)放入列表中。
elements = driver.find_elements_by_xpath('') #for the table
for element in elements:
print(element.text)
\#Output is:
Penn Affiliated:
Delaware Valley Regional Planning Commission Congestion Management Intern
Contracts Intern
Transit, Bike, and Pedestrian Planning
Fabrication Lab Laser Cutter Operator
...
这将打印所有行。现在我不确定如何从第二列和所有行中获取链接。
这是表格的HTML:
非常感谢!
答案 0 :(得分:1)
要从您的元素获取href
属性的值,可以执行以下操作:
elements = driver.find_elements_by_xpath("//table[@class = 'search']//td/a")
for element in elements:
print(element.get_attribute("href"))
答案 1 :(得分:0)
好吧,您没有提供URL,但是基本上应该是这样。
import lxml.html
doc = lxml.html.parse('http://www.gpsbasecamp.com/national-parks')
links = doc.xpath('//a[@href]')
for link in links:
print(link.attrib['href'])