Question

我正在设置一个PHP脚本，每天使用Curl通过服务器通过屏幕抓取网站2-5次。它所做的只是检索网站的html。但是，我打算定位的网站的robot.txt文件显示“ User-agent：* Disallow：/”。该脚本会违反他们的robot.txt文件，并将我的脚本视为机器人。

我知道以后禁止使用斜杠表示不允许使用搜寻器，但是我的脚本被视为搜寻器。或者像get_file_content（）和Curling之类的函数与Web爬网和漫游器具有相同的定义。

<?php
$curl = curl_init();

curl_setopt($curl, CURLOPT_URL, 'url');    
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);    
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 30);

curl_setopt($curl, CURLOPT_TIMEOUT, 10);

sleep(300);

$html = curl_exec($curl);

curl_close($curl);

$html = tidy_repair_string($html);

$doc = new \DOMDocument();

@$doc->loadHTML($html);

$x_path = new \DOMXpath($doc);

$nodes = $x_path->query('//div[@class="id"]');

foreach ($nodes as $node)
{
    echo $doc->saveHTML($node);
}
?>

Answer 1

是的，您的php脚本被认为是机器人，并且

User-agent: *
Disallow: /

表示“不允许使用机器人”，不幸的是其中包含您的脚本。

此卷曲脚本是否会超出目标网站的Robot.txt文件

1 个答案: