我有这个代码从网页上读取链接(URL)并在屏幕上打印出来。
connection = urllib.urlopen("http://www.google.com")
dom = lxml.html.fromstring(connection.read())
for link in dom.xpath('//a/@href'):
print link
工作正常。
现在我想完全做同样的事情,但代替来自锚标记a
的网址我希望得到img
下src
的HTML标记中的图片网址。我无法理解这个dom.xpath('//a/@href')
是如何工作的。如果有人可以解释它或只是指导我一个教程,那将是很棒的。
干杯
答案 0 :(得分:3)
有了xpath的开头,请查看http:wiki/XPath或了解USING XPATHS的更多信息。
//a/@href'
从所有链接(<a>
标记)中选择href属性。
对于所有图像src属性,这将是//img/@src
。