Question

获取简单的网页非常容易。我可以从python's manumal

看到

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

但如何获取所有网站？有人可以提供代码吗？

Answer 1

使用BeautifulSoup解析网站，并为每个链接重复此过程，除非它将您引导到域外。

非常简单，但是如果您尝试获取动态内容，那么它会变得复杂，因为动态内容没有指向它的链接。

Answer 2

您可以使用

的组合

您可以在网页上提取链接，并跟踪您是否已访问过该网页，以及该网址是否属于同一网站并获取它们。

您需要记住为了索引该页面而需要的嵌套级别。否则，您要检索的页面将呈指数级增长