BeautifulSoup爬行饼干

时间:2014-08-29 09:48:50

标签: python drupal cookies web-crawler

我的任务是创建一个cookie审核工具,该工具可以抓取整个网站并收集页面上所有Cookie的数据,并根据他们是否跟踪用户数据对其进行分类。我是Python的新手,但我认为这对我来说是一个很棒的项目,beautifulsoup是否适合这项工作?我们有大量的网站,目前正在迁移到Drupal,所以它必须能够扫描Polopoly CMS和Drupal。

3 个答案:

答案 0 :(得分:1)

Urllib2用于提交http请求,BeautifulSoup用于解析html。你肯定需要一个http请求库,你也可能需要BeautifulSoup,具体取决于你想要做什么。

BeautifulSoup非常容易使用并且可以很好地解析损坏的html,因此可以抓取页面上任何javascript的链接(即使在html格式错误的情况下)。然后,您将需要其他东西来解析javascript,以确定它是否与cookie进行交互。

要查看客户端的cookie值,只需查看http请求标头或使用cookielib(尽管我个人没有使用过这个库)。

对于http请求,我建议使用requests库,查看http请求标头将非常简单:

response = requests.get(url)
header   = response.headers

我怀疑requests也有一个快捷方式,只能访问标题的Set-Cookie值,但您需要查看它。

答案 1 :(得分:0)

我认为你不需要BeautifulSoup。您可以使用urllib2进行连接,cookielib进行Cookie操作。

答案 2 :(得分:0)

您不需要bs4用于此目的,因为您只需要来自cookie的信息。 (仅当最终需要从html代码中提取内容时才使用bs4。)

对于cookies的东西,我会使用python-request及其对http会话的支持:http://docs.python-requests.org/en/latest/user/advanced/