Question

所以我在Python中创建了一个程序，用于收集我使用的论坛的统计信息。它基本上循环遍历一长串URL，用 urllib.request.urlopen 打开每个URL，并收集每个帖子的信息。我遇到的问题是这个网站显然不喜欢我不断打开他们的一堆网址，并尽其所能阻止我这样做。（我假设这是阻止垃圾邮件充斥网站的方法）。

在此之后，我尝试使用SiteSucker等网站下载应用程序。但是我的计算机没有足够的空间容纳~7,000页的HTML，所以这也不起作用。

我想要的是能够安全地使用Python下载每个页面，分析其HTML，然后删除它，而不会让网站在此过程中阻止我。任何解决方案？

Answer 1

请求将忽略robots.txt以及可能的其他机器人保护，用于解析html我在安装后使用Beautifulsoup编写

from bs4 import BeautifulSoup

导入它。继承了beautifulsoup http://www.crummy.com/software/BeautifulSoup/bs4/doc/的网站和请求的网站。 http://docs.python-requests.org/en/latest/

如何用Python有效地分析大量网页？

1 个答案: