Question

可能重复：
How do I save a web page, programatically?

我刚开始卷曲，我设法拉了一个外部网站：

function get_data($url) {
  $ch = curl_init();
  $timeout = 5;
  curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
  $data = curl_exec($ch);
  curl_close($ch);
  return $data;
}
$test = get_data("http://www.selfridges.com");
echo $test;

然而，CSS和图像不包括在内。我还需要检索CSS和图像，基本上是整个网站。有人可以请一个简短的方法让我开始理解如何解析CSS，图像和URL让我走？

Answer 1

有比PHP好的工具，例如。带有wget参数的--page-requisites。

但请注意，自动抓取通常违反了网站的服务条款。

Answer 2

PHP有HTML解析器。有几个可用，这里有一篇文章讨论：How do you parse and process HTML/XML in PHP?

如何解析curl URL，CSS和图像？

2 个答案: