Cookie抓取工具的想法?

时间:2014-01-26 14:10:13

标签: javascript php cookies curl web-crawler

我正在寻找PHP / javascript /等。 crawler(bot)谁会检查给定的网站集和(这是重要的部分)检查网站设置到用户浏览器的cookie!

我甚至不知道是否可以做这样的事情,因为我知道抓取工具可以检查网站的内容,甚至抓取工具可以在用户访问网站时存储cookie,但他实际上可以从中读取cookie一个网站?

所以我的问题是:根据定义,这不可能吗?可以这样做吗?基本上检查网站设置到用户浏览器中的cookie,例如将它们存储在变量中。

2 个答案:

答案 0 :(得分:0)

网站(通常)不关心用户代理是用户控制的浏览器还是机器人。两者都可以读取请求用户代理存储cookie的HTTP响应头。​​

当网站有条件地设置cookie(因为你必须触发条件)或使用JavaScript(当你需要让机器人知道机器人的JavaScript)时,并发症就会出现。

答案 1 :(得分:0)

<?php

$sites = array(
"www.google.com",
"www.w3schools.com",
"www.sapo.pt");

foreach ($sites as $site)
{
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://$site");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, "/tmp/$site");
curl_setopt($ch, CURLOPT_COOKIEFILE, "/tmp/$site");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$data = curl_exec($ch);
curl_close($ch);
} 
?>

这将创建在/ tmp /文件夹

中抓取的每个网站的Cookie
-rw-r--r--  1 apache apache       430 Jan 26 20:21 www.google.com
-rw-r--r--  1 apache apache       291 Jan 26 20:22 www.sapo.pt
-rw-r--r--  1 apache apache       225 Jan 26 20:21 www.w3schools.com