python html提取标签

时间:2010-08-17 14:12:20

标签: python html

如何做到以下几点:

  1. 浏览html页面(最好通过整个域名(www.python.org)并提取所有
  2. h1 h2 ... hn标签

    并将所有标题写入文件。按正确的顺序:

    从h1开始 比h2

    直到我们到达下一个h1

2 个答案:

答案 0 :(得分:2)

使用BeautifulSoupPyQuery

答案 1 :(得分:1)

鉴于需要扫描整个网站,您可能需要查看pycurl来抓取文件。但请注意不要使用相当于DoS攻击的网站。