刮Trivago问题

时间:2015-08-14 17:52:55

标签: php curl web-scraping urlfetch

我正在使用以下代码来抓取网页:

$ch =curl_init("http://www.trivago.de/?aDateRange%5Barr%5D=2015-08-07&aDateRange%5Bdep%5D=2015-08-10&iRoomType=7&bIsTotalPrice=false&iPathId=3577&iGeoDistanceItem=1473453&iViewType=0&bIsSeoPage=false&bIsSitemap=false&");
 $fp = fopen("example_homepage.txt", "w");

 curl_setopt($ch, CURLOPT_FILE, $fp);
 curl_setopt($ch, CURLOPT_HEADER, 0);

$output = curl_exec($ch);
curl_close($ch);

但我得到的网页对于真实网页来说不正确或不完整。

我得到的不完整:

What I getting by scrape

实际的网页是这样的:
Actual page

1 个答案:

答案 0 :(得分:0)

你的CURL应该看起来类似于手头的任务:

$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,'http://yourwebiste.com');
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,5); //5 seconds
$result = curl_exec($ch); //$result now holds fetched data
curl_close($ch);

代码是我自己的CURL库的一部分。请记住,您并未提取文件,而是返回的HTML内容。