如何解析curl URL,CSS和图像?

时间:2013-01-20 10:26:40

标签: php curl cross-domain

  

可能重复:
  How do I save a web page, programatically?

我刚开始卷曲,我设法拉了一个外部网站:

function get_data($url) {
  $ch = curl_init();
  $timeout = 5;
  curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
  $data = curl_exec($ch);
  curl_close($ch);
  return $data;
}
$test = get_data("http://www.selfridges.com");
echo $test;

然而,CSS和图像不包括在内。我还需要检索CSS和图像,基本上是整个网站。有人可以请一个简短的方法让我开始理解如何解析CSS,图像和URL让我走?

2 个答案:

答案 0 :(得分:1)

有比PHP好的工具,例如。带有wget参数的--page-requisites

但请注意,自动抓取通常违反了网站的服务条款。

答案 1 :(得分:0)

PHP有HTML解析器。有几个可用,这里有一篇文章讨论:How do you parse and process HTML/XML in PHP?