我正在使用以下代码来抓取网页:
$ch =curl_init("http://www.trivago.de/?aDateRange%5Barr%5D=2015-08-07&aDateRange%5Bdep%5D=2015-08-10&iRoomType=7&bIsTotalPrice=false&iPathId=3577&iGeoDistanceItem=1473453&iViewType=0&bIsSeoPage=false&bIsSitemap=false&");
$fp = fopen("example_homepage.txt", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);
$output = curl_exec($ch);
curl_close($ch);
但我得到的网页对于真实网页来说不正确或不完整。
我得到的不完整:
实际的网页是这样的:
Actual page
答案 0 :(得分:0)
你的CURL应该看起来类似于手头的任务:
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,'http://yourwebiste.com');
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,5); //5 seconds
$result = curl_exec($ch); //$result now holds fetched data
curl_close($ch);
代码是我自己的CURL库的一部分。请记住,您并未提取文件,而是返回的HTML内容。