在这里,我正在获取网站的所有网址,以查找网站的H1标签列表。
但是在某些页面中,通过jquery .text()方法添加的H1标签文本和这些页面的H1在我的html代码中为空白。在这里,我缺少了从javascript传递过来的那些H1标签内容。请帮我。
$urls = array();
$DomDocument = new DOMDocument();
$DomDocument->load('https://www.website.com/sitemap.xml');
$DomNodeList = $DomDocument->getElementsByTagName('loc');
foreach($DomNodeList as $url) {
$urls[] = $url->nodeValue;
}
foreach ($urls as $value) {
echo "$value <br>";
$curl = curl_init("$value");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$page = curl_exec($curl);
if(curl_errno($curl)) // check for execution errors
{
echo 'Scraper error: ' . curl_error($curl);
exit;
}
curl_close($curl);
$regex = '/<h1>(.*?)<\/h1>/s';
if (preg_match($regex, $page, $list) ){
echo $list[0];
}else {
print "Not found<br/>";
}
}