Question

我在这里抓了一段脚本来抓取一个网站，把它放在我的服务器上然后就可以了。唯一的问题是，如果我尝试抓取设置深度超过4的任何东西它不起作用。我想知道是否由于服务器缺乏资源或代码本身。

<?php

error_reporting(E_ALL); 

function crawl_page($url, $depth)
{
    static $seen = array();
    if (isset($seen[$url]) || $depth === 0) {
        return;
    }
    $seen[$url] = true;

    $dom = new DOMDocument('1.0');
    @$dom->loadHTMLFile($url);

    $anchors = $dom->getElementsByTagName('a');
    foreach ($anchors as $element) {
        $href = $element->getAttribute('href');
        if (0 !== strpos($href, 'http')) {
            $href = rtrim($url, '/') . '/' . ltrim($href, '/');
        }
        crawl_page($href, $depth - 1);
    }
    echo "URL:",$url,PHP_EOL;
    echo  "<br/>";
}
crawl_page("http://www.mangastream.com/", 2);
?>

编辑：

我打开了脚本的错误报告，我得到的就是这个

错误324（net :: ERR_EMPTY_RESPONSE）：未知错误。

Answer 1

尝试确保您有所有错误消息（display_errors，error_reporting）。这可以让您更深入地了解它崩溃的原因。

另外，请记住，抓取通常是非法的，具体取决于您要对数据执行的操作。

爬虫脚本php

1 个答案: