我正在设置一个PHP脚本,每天使用Curl通过服务器通过屏幕抓取网站2-5次。它所做的只是检索网站的html。但是,我打算定位的网站的robot.txt文件显示“ User-agent:* Disallow:/”。该脚本会违反他们的robot.txt文件,并将我的脚本视为机器人。
我知道以后禁止使用斜杠表示不允许使用搜寻器,但是我的脚本被视为搜寻器。或者像get_file_content()和Curling之类的函数与Web爬网和漫游器具有相同的定义。
<?php
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, 'url');
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt($curl, CURLOPT_TIMEOUT, 10);
sleep(300);
$html = curl_exec($curl);
curl_close($curl);
$html = tidy_repair_string($html);
$doc = new \DOMDocument();
@$doc->loadHTML($html);
$x_path = new \DOMXpath($doc);
$nodes = $x_path->query('//div[@class="id"]');
foreach ($nodes as $node)
{
echo $doc->saveHTML($node);
}
?>
答案 0 :(得分:0)
是的,您的php脚本被认为是机器人,并且
User-agent: *
Disallow: /
表示“不允许使用机器人”,不幸的是其中包含您的脚本。