我正在使用这个脚本来抓取一个网站:
<?php
$url = "http://www.nu.nl";
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$curl_scraped_page = curl_exec($ch);
curl_close($ch);
echo $curl_scraped_page;
?>
输出广告javascript中的错误域,head部分中的css文件。所以我尝试用以下方法修复它:
$url = preg_replace("/<head>/i", "<head><base href='$url' />", $url, 1);
不起作用,任何想法为什么?我无法发现任何事情。
答案 0 :(得分:1)
使用正确的变量怎么样? $curl_scraped_page
是您的网页,$url
是您的网址...但您已将$url
传递给preg_replace
。
$curl_scraped_page = preg_replace("/<head>/i", "<head><base href='$url' />", $curl_scraped_page, 1);