从dom.xpath获取img src

时间:2013-04-24 10:54:56

标签: python dom xpath

我有这个代码从网页上读取链接(URL)并在屏幕上打印出来。

connection = urllib.urlopen("http://www.google.com")
dom =  lxml.html.fromstring(connection.read())
for link in dom.xpath('//a/@href'):
    print link

工作正常。
现在我想完全做同样的事情,但代替来自锚标记a的网址我希望得到imgsrc的HTML标记中的图片网址。我无法理解这个dom.xpath('//a/@href')是如何工作的。如果有人可以解释它或只是指导我一个教程,那将是很棒的。
干杯

1 个答案:

答案 0 :(得分:3)

有了xpath的开头,请查看http:wiki/XPath或了解USING XPATHS的更多信息。

//a/@href'从所有链接(<a>标记)中选择href属性。

对于所有图像src属性,这将是//img/@src