Web抓取动态内容

时间:2018-08-06 23:40:10

标签: javascript php frameworks screen-scraping scraper

我正在尝试从多个站点(mega.nz,openlaod.co)中抓取信息,并且内容是动态加载的,因此我实际使用的代码不起作用

 <?php

    require 'simple_html_dom.php';

    $ch = curl_init();
    curl_setopt($ch,  CURLOPT_URL,"https://openload.co/f/41I9Ak_QBxw/DPLA.mp4");
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

    $response = curl_exec($ch);
    curl_close($ch);

    echo $response;
    $html = new simple_html_dom();
    $html->load($response);


    foreach ($html->find('img[id=imagedisplay]') as $key ) {
        echo $key;
    }



?> 

当我在openload上使用它时(如上面的示例),它会将我重定向到“ https://oload.download/scraping/”,即“ /抓取”我存放脚本的文件夹。

我是否可以使用任何javascript / jquery框架(或php)来快速抓取内容?

1 个答案:

答案 0 :(得分:0)

它不适合大量抓取,但是在过去,当我需要从动态网页中获取一些基本数据时,我发现Selenium的效果很好。

根据您选择的内容,建议您使用无头浏览器。这样,您可以在后台呈现页面并解析结果HTML。