获取简单的网页非常容易。 我可以从python's manumal
看到import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但如何获取所有网站? 有人可以提供代码吗?
答案 0 :(得分:1)
使用BeautifulSoup解析网站,并为每个链接重复此过程,除非它将您引导到域外。
非常简单,但是如果您尝试获取动态内容,那么它会变得复杂,因为动态内容没有指向它的链接。
答案 1 :(得分:0)
您可以使用
的组合您可以在网页上提取链接,并跟踪您是否已访问过该网页,以及该网址是否属于同一网站并获取它们。
您需要记住为了索引该页面而需要的嵌套级别。否则,您要检索的页面将呈指数级增长