使用xpath从html页面提取链接

时间:2015-10-06 09:56:27

标签: python html xpath web-scraping

我试图在这个html页面上提取链接:

<div class="listbox">
      <div class="mainbox" onclick="www.abc.com">

我尝试过使用:

//div[@class="listbox"]/a/text()
//div/onclick/text()

但他们返回一个空列表。

2 个答案:

答案 0 :(得分:0)

在您的情况下,您可以使用Selenium和getAttribute方法获取链接。 首先找到在其onclick属性中包含链接的元素(或元素然后循环),然后通过getAttribute获取它们:

Selenium + Java:

String link = driver.findElement(By.className("mainbox")).getAttribute("onclick");

Selenium + Python:

我不是蟒蛇人,但它应该像这样工作:

link = driver.find_element_by_class_name("mainbox")).get_attribute("onclick");

答案 1 :(得分:0)

这样的XPath必须适合你。

/div/div/@onclick

或更准确

/div[@class="listbox"]/div[@class="mainbox"]/@onclick