如何用Python有效地分析大量网页?

时间:2015-10-17 00:51:32

标签: python html url urllib2

所以我在Python中创建了一个程序,用于收集我使用的论坛的统计信息。它基本上循环遍历一长串URL,用 urllib.request.urlopen 打开每个URL,并收集每个帖子的信息。 我遇到的问题是这个网站显然不喜欢我不断打开他们的一堆网址,并尽其所能阻止我这样做。 (我假设这是阻止垃圾邮件充斥网站的方法)。

在此之后,我尝试使用SiteSucker等网站下载应用程序。但是我的计算机没有足够的空间容纳~7,000页的HTML,所以这也不起作用。

我想要的是能够安全地使用Python下载每个页面,分析其HTML,然后删除它,而不会让网站在此过程中阻止我。任何解决方案?

1 个答案:

答案 0 :(得分:0)

请求将忽略robots.txt以及可能的其他机器人保护,用于解析html我在安装后使用Beautifulsoup编写

from bs4 import BeautifulSoup

导入它。继承了beautifulsoup http://www.crummy.com/software/BeautifulSoup/bs4/doc/的网站和请求的网站。 http://docs.python-requests.org/en/latest/