标签: python html
如何做到以下几点:
h1 h2 ... hn标签
并将所有标题写入文件。按正确的顺序:
从h1开始 比h2
直到我们到达下一个h1
答案 0 :(得分:2)
使用BeautifulSoup或PyQuery。
答案 1 :(得分:1)
鉴于需要扫描整个网站,您可能需要查看pycurl来抓取文件。但请注意不要使用相当于DoS攻击的网站。