使用lxml获取HTML的所有链接

时间:2012-04-30 12:02:52

标签: python lxml

我想使用lxml从html页面中找出所有网址及其名称。

我可以解析网址,可以找到这个东西,但有没有简单的方法可以找到所有使用lxml的url链接?

2 个答案:

答案 0 :(得分:8)

from lxml.html import parse
dom = parse('http://www.google.com/').getroot()
links = dom.cssselect('a')

答案 1 :(得分:1)

from lxml import etree, cssselect, html

with open("/you/path/index.html", "r") as f:
    fileread = f.read()

dochtml = html.fromstring(fileread)

select = cssselect.CSSSelector("a")
links = [ el.get('href') for el in select(dochtml) ]

links = iter(links)
for n, l in enumerate(links):
    print n, l