Question

我的HTML网页包含以下元素：

<div class="content_page">
    <a href="/earth" class="nametessera" >earth</a>
</div>
<div class="content_page">
    <a href="/world" class="nametessera" >world</a>
</div>
<div class="content_page">
    <a href="/planet" class="nametessera">planet</a>
</div>
...

我需要检索/ earth，/ world，/ planet等。所以我需要使用“nametessera”类检索标签A的所有链接。

如何使用python执行此操作？

Answer 1

简短回答：

使用beautifulSoup解析网页，获取网址，然后使用urlib2或pycurl下载提及的网址。

[编辑：]

添加以下示例，但仅使用div中包含的href

>>> alldiv = soup.findAll('div', { "class" : "content_page" })
>>> for div in alldiv: print div.a
... 
<a href="/earth" class="nametessera">earth</a>
<a href="/world" class="nametessera">world</a>
<a href="/planet" class="nametessera">planet</a>
>>> for div in alldiv: print div.a['href']
... 
/earth
/world
/plan

同样你也可以

allHref = soup.findAll('a', { "class" : "nametessera" })

Answer 2

您使用Beautiful Soup解析HTML。

文档为here。

如何从网页中检索这些元素？

2 个答案: