我正在寻找PHP / javascript /等。 crawler(bot)谁会检查给定的网站集和(这是重要的部分)检查网站设置到用户浏览器的cookie!
我甚至不知道是否可以做这样的事情,因为我知道抓取工具可以检查网站的内容,甚至抓取工具可以在用户访问网站时存储cookie,但他实际上可以从中读取cookie一个网站?
所以我的问题是:根据定义,这不可能吗?可以这样做吗?基本上检查网站设置到用户浏览器中的cookie,例如将它们存储在变量中。
答案 0 :(得分:0)
网站(通常)不关心用户代理是用户控制的浏览器还是机器人。两者都可以读取请求用户代理存储cookie的HTTP响应头。
当网站有条件地设置cookie(因为你必须触发条件)或使用JavaScript(当你需要让机器人知道机器人的JavaScript)时,并发症就会出现。
答案 1 :(得分:0)
<?php
$sites = array(
"www.google.com",
"www.w3schools.com",
"www.sapo.pt");
foreach ($sites as $site)
{
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://$site");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, "/tmp/$site");
curl_setopt($ch, CURLOPT_COOKIEFILE, "/tmp/$site");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$data = curl_exec($ch);
curl_close($ch);
}
?>
这将创建在/ tmp /文件夹
中抓取的每个网站的Cookie-rw-r--r-- 1 apache apache 430 Jan 26 20:21 www.google.com
-rw-r--r-- 1 apache apache 291 Jan 26 20:22 www.sapo.pt
-rw-r--r-- 1 apache apache 225 Jan 26 20:21 www.w3schools.com