Question

我正在尝试从多个站点（mega.nz，openlaod.co）中抓取信息，并且内容是动态加载的，因此我实际使用的代码不起作用

 <?php

    require 'simple_html_dom.php';

    $ch = curl_init();
    curl_setopt($ch,  CURLOPT_URL,"https://openload.co/f/41I9Ak_QBxw/DPLA.mp4");
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

    $response = curl_exec($ch);
    curl_close($ch);

    echo $response;
    $html = new simple_html_dom();
    $html->load($response);


    foreach ($html->find('img[id=imagedisplay]') as $key ) {
        echo $key;
    }



?>

当我在openload上使用它时（如上面的示例），它会将我重定向到“ https://oload.download/scraping/”，即“ /抓取”我存放脚本的文件夹。

我是否可以使用任何javascript / jquery框架（或php）来快速抓取内容？

Answer 1

它不适合大量抓取，但是在过去，当我需要从动态网页中获取一些基本数据时，我发现Selenium的效果很好。

根据您选择的内容，建议您使用无头浏览器。这样，您可以在后台呈现页面并解析结果HTML。

Web抓取动态内容

1 个答案: