在不运行页面网址的情况下获取页面的动态值

时间:2019-07-16 05:47:01

标签: javascript php

在这里,我正在获取网站的所有网址,以查找网站的H1标签列表。

但是在某些页面中,通过jquery .text()方法添加的H1标签文本和这些页面的H1在我的html代码中为空白。在这里,我缺少了从javascript传递过来的那些H1标签内容。请帮我。

    $urls = array();  

    $DomDocument = new DOMDocument();

    $DomDocument->load('https://www.website.com/sitemap.xml');

    $DomNodeList = $DomDocument->getElementsByTagName('loc');


    foreach($DomNodeList as $url) {
        $urls[] = $url->nodeValue;
    }

    foreach ($urls as $value) {
    echo "$value <br>";
    $curl = curl_init("$value");
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
    $page = curl_exec($curl);
    if(curl_errno($curl)) // check for execution errors
    {
    echo 'Scraper error: ' . curl_error($curl);
    exit;
    }

    curl_close($curl);

    $regex = '/<h1>(.*?)<\/h1>/s';

    if (preg_match($regex, $page, $list) ){
         echo $list[0];
        }else {
       print "Not found<br/>";  
        }
    }

0 个答案:

没有答案