我的任务是创建一个cookie审核工具,该工具可以抓取整个网站并收集页面上所有Cookie的数据,并根据他们是否跟踪用户数据对其进行分类。我是Python的新手,但我认为这对我来说是一个很棒的项目,beautifulsoup是否适合这项工作?我们有大量的网站,目前正在迁移到Drupal,所以它必须能够扫描Polopoly CMS和Drupal。
答案 0 :(得分:1)
Urllib2用于提交http请求,BeautifulSoup用于解析html。你肯定需要一个http请求库,你也可能需要BeautifulSoup,具体取决于你想要做什么。
BeautifulSoup
非常容易使用并且可以很好地解析损坏的html,因此可以抓取页面上任何javascript的链接(即使在html格式错误的情况下)。然后,您将需要其他东西来解析javascript,以确定它是否与cookie进行交互。
要查看客户端的cookie值,只需查看http请求标头或使用cookielib
(尽管我个人没有使用过这个库)。
对于http请求,我建议使用requests
库,查看http请求标头将非常简单:
response = requests.get(url)
header = response.headers
我怀疑requests
也有一个快捷方式,只能访问标题的Set-Cookie
值,但您需要查看它。
答案 1 :(得分:0)
我认为你不需要BeautifulSoup
。您可以使用urllib2
进行连接,cookielib
进行Cookie操作。
答案 2 :(得分:0)
您不需要bs4用于此目的,因为您只需要来自cookie的信息。 (仅当最终需要从html代码中提取内容时才使用bs4。)
对于cookies的东西,我会使用python-request及其对http会话的支持:http://docs.python-requests.org/en/latest/user/advanced/