如何从网页中检索这些元素?

时间:2010-12-01 19:19:48

标签: python

我的HTML网页包含以下元素:

<div class="content_page">
    <a href="/earth" class="nametessera" >earth</a>
</div>
<div class="content_page">
    <a href="/world" class="nametessera" >world</a>
</div>
<div class="content_page">
    <a href="/planet" class="nametessera">planet</a>
</div>
...

我需要检索/ earth,/ world,/ planet等。 所以我需要使用“nametessera”类检索标签A的所有链接。

如何使用python执行此操作?

2 个答案:

答案 0 :(得分:3)

简短回答:

使用beautifulSoup解析网页,获取网址,然后使用urlib2pycurl下载提及的网址。

[编辑:]

添加以下示例,但仅使用div中包含的href

>>> alldiv = soup.findAll('div', { "class" : "content_page" })
>>> for div in alldiv: print div.a
... 
<a href="/earth" class="nametessera">earth</a>
<a href="/world" class="nametessera">world</a>
<a href="/planet" class="nametessera">planet</a>
>>> for div in alldiv: print div.a['href']
... 
/earth
/world
/plan

同样你也可以

allHref = soup.findAll('a', { "class" : "nametessera" })

答案 1 :(得分:3)

您使用Beautiful Soup解析HTML。

文档为here