Question

我的任务是创建一个cookie审核工具，该工具可以抓取整个网站并收集页面上所有Cookie的数据，并根据他们是否跟踪用户数据对其进行分类。我是Python的新手，但我认为这对我来说是一个很棒的项目，beautifulsoup是否适合这项工作？我们有大量的网站，目前正在迁移到Drupal，所以它必须能够扫描Polopoly CMS和Drupal。

Answer 1

Urllib2用于提交http请求，BeautifulSoup用于解析html。你肯定需要一个http请求库，你也可能需要BeautifulSoup，具体取决于你想要做什么。

BeautifulSoup非常容易使用并且可以很好地解析损坏的html，因此可以抓取页面上任何javascript的链接（即使在html格式错误的情况下）。然后，您将需要其他东西来解析javascript，以确定它是否与cookie进行交互。

要查看客户端的cookie值，只需查看http请求标头或使用cookielib（尽管我个人没有使用过这个库）。

对于http请求，我建议使用requests库，查看http请求标头将非常简单：

response = requests.get(url)
header   = response.headers

我怀疑requests也有一个快捷方式，只能访问标题的Set-Cookie值，但您需要查看它。

Answer 2

我认为你不需要BeautifulSoup。您可以使用urllib2进行连接，cookielib进行Cookie操作。

Answer 3

您不需要bs4用于此目的，因为您只需要来自cookie的信息。（仅当最终需要从html代码中提取内容时才使用bs4。）

对于cookies的东西，我会使用python-request及其对http会话的支持：http://docs.python-requests.org/en/latest/user/advanced/

BeautifulSoup爬行饼干

3 个答案: