此卷曲脚本是否会超出目标网站的Robot.txt文件

时间:2019-06-23 00:47:53

标签: php curl

我正在设置一个PHP脚本,每天使用Curl通过服务器通过屏幕抓取网站2-5次。它所做的只是检索网站的html。但是,我打算定位的网站的robot.txt文件显示“ User-agent:* Disallow:/”。该脚本会违反他们的robot.txt文件,并将我的脚本视为机器人。

我知道以后禁止使用斜杠表示不允许使用搜寻器,但是我的脚本被视为搜寻器。或者像get_file_content()和Curling之类的函数与Web爬网和漫游器具有相同的定义。

<?php
$curl = curl_init();

curl_setopt($curl, CURLOPT_URL, 'url');    
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);    
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 30);

curl_setopt($curl, CURLOPT_TIMEOUT, 10);

sleep(300);

$html = curl_exec($curl);

curl_close($curl);

$html = tidy_repair_string($html);

$doc = new \DOMDocument();

@$doc->loadHTML($html);

$x_path = new \DOMXpath($doc);

$nodes = $x_path->query('//div[@class="id"]');

foreach ($nodes as $node)
{
    echo $doc->saveHTML($node);
}
?>

1 个答案:

答案 0 :(得分:0)

是的,您的php脚本被认为是机器人,并且

User-agent: *
Disallow: /

表示“不允许使用机器人”,不幸的是其中包含您的脚本。