Question

我有这个代码从网页上读取链接（URL）并在屏幕上打印出来。

connection = urllib.urlopen("http://www.google.com")
dom =  lxml.html.fromstring(connection.read())
for link in dom.xpath('//a/@href'):
    print link

工作正常。
现在我想完全做同样的事情，但代替来自锚标记a的网址我希望得到img下src的HTML标记中的图片网址。我无法理解这个dom.xpath('//a/@href')是如何工作的。如果有人可以解释它或只是指导我一个教程，那将是很棒的。
干杯

Answer 1

有了xpath的开头，请查看http：wiki/XPath或了解USING XPATHS的更多信息。

//a/@href'从所有链接（<a>标记）中选择href属性。

对于所有图像src属性，这将是//img/@src。

从dom.xpath获取img src

1 个答案: