我的HTML网页包含以下元素:
<div class="content_page">
<a href="/earth" class="nametessera" >earth</a>
</div>
<div class="content_page">
<a href="/world" class="nametessera" >world</a>
</div>
<div class="content_page">
<a href="/planet" class="nametessera">planet</a>
</div>
...
我需要检索/ earth,/ world,/ planet等。 所以我需要使用“nametessera”类检索标签A的所有链接。
如何使用python执行此操作?
答案 0 :(得分:3)
简短回答:
使用beautifulSoup解析网页,获取网址,然后使用urlib2或pycurl下载提及的网址。
[编辑:]
添加以下示例,但仅使用div中包含的href
>>> alldiv = soup.findAll('div', { "class" : "content_page" })
>>> for div in alldiv: print div.a
...
<a href="/earth" class="nametessera">earth</a>
<a href="/world" class="nametessera">world</a>
<a href="/planet" class="nametessera">planet</a>
>>> for div in alldiv: print div.a['href']
...
/earth
/world
/plan
同样你也可以
allHref = soup.findAll('a', { "class" : "nametessera" })
答案 1 :(得分:3)
您使用Beautiful Soup解析HTML。
文档为here。