解析服务器上的Javascript

时间:2013-09-04 20:18:40

标签: php javascript curl

我正在尝试创建一个基本的网络抓取工具,专门查找来自广告的链接。

我设法找到一个使用cURL获取目标网页内容的脚本

<?php

$ch = curl_init("http://www.nbcnews.com");
$fp = fopen("source_code.txt", "w");

curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);

curl_exec($ch);
curl_close($ch);
fclose($fp);
?>

我还找到了一个使用DOM的文件

<?php
$html = file_get_contents('http://www.nbcnews.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

// grab all the on the page
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//i");

for ($i = 0; $i < $hrefs->length; $i++) {
   $href = $hrefs->item($i);
   $url = $href->getAttribute('href');
   echo $url.'<br />';
}
?>

这些很棒,我当然觉得我正在朝着正确的方向前进,除了使用JS展示了很多广告,而且它是客户端,它显然没有被处理,我只看到JS代码,而不是广告

基本上,在我开始尝试提取链接之前,有没有办法让JS执行?

由于

0 个答案:

没有答案