Question

我正在寻找PHP / javascript /等。 crawler（bot）谁会检查给定的网站集和（这是重要的部分）检查网站设置到用户浏览器的cookie！

我甚至不知道是否可以做这样的事情，因为我知道抓取工具可以检查网站的内容，甚至抓取工具可以在用户访问网站时存储cookie，但他实际上可以从中读取cookie一个网站？

所以我的问题是：根据定义，这不可能吗？可以这样做吗？基本上检查网站设置到用户浏览器中的cookie，例如将它们存储在变量中。

Answer 1

网站（通常）不关心用户代理是用户控制的浏览器还是机器人。两者都可以读取请求用户代理存储cookie的HTTP响应头。

当网站有条件地设置cookie（因为你必须触发条件）或使用JavaScript（当你需要让机器人知道机器人的JavaScript）时，并发症就会出现。

Answer 2

<?php

$sites = array(
"www.google.com",
"www.w3schools.com",
"www.sapo.pt");

foreach ($sites as $site)
{
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://$site");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, "/tmp/$site");
curl_setopt($ch, CURLOPT_COOKIEFILE, "/tmp/$site");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$data = curl_exec($ch);
curl_close($ch);
} 
?>

这将创建在/ tmp /文件夹

中抓取的每个网站的Cookie

-rw-r--r--  1 apache apache       430 Jan 26 20:21 www.google.com
-rw-r--r--  1 apache apache       291 Jan 26 20:22 www.sapo.pt
-rw-r--r--  1 apache apache       225 Jan 26 20:21 www.w3schools.com

Cookie抓取工具的想法？

2 个答案: