我刚开始卷曲,我设法拉了一个外部网站:
function get_data($url) {
$ch = curl_init();
$timeout = 5;
curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
$data = curl_exec($ch);
curl_close($ch);
return $data;
}
$test = get_data("http://www.selfridges.com");
echo $test;
然而,CSS和图像不包括在内。我还需要检索CSS和图像,基本上是整个网站。有人可以请一个简短的方法让我开始理解如何解析CSS,图像和URL让我走?
答案 0 :(得分:1)
有比PHP好的工具,例如。带有wget
参数的--page-requisites
。
但请注意,自动抓取通常违反了网站的服务条款。
答案 1 :(得分:0)
PHP有HTML解析器。有几个可用,这里有一篇文章讨论:How do you parse and process HTML/XML in PHP?