PHP的Simple-HTML-DOM适用于一个URL但不适用于另一个URL

时间:2013-05-08 07:23:02

标签: php image simple-html-dom

我正在尝试在两个不同的中国购物网站的“产品页面”中提取主要图像。

网站1产品页链接: http://www.aliexpress.com/item/100FT-7-Core-Strand-550-Parachute-Cord-Nylon-Lanyard-Desert-Paracord-Survival-Kits-For-Climbing-Camping/541809415.html

网站2产品页链接: http://detail.china.alibaba.com/offer/1235158006.html

我的代码适用于网站#1,但对于网站#2,我得到一个奇怪的短html字符串。

这是我的代码:

<?php 
require_once('./includes/simple_html_dom/simple_html_dom.php');

$url="http://www.aliexpress.com/item/100FT-7-Core-Strand-550-Parachute-Cord-Nylon-Lanyard-Desert-Paracord-Survival-Kits-For-Climbing-Camping/541809415.html";
$html=file_get_html($url);

echo "html lenght : ".strlen($html)."<br>";

foreach($html->find('meta[property=og:image]') as $element) {
    echo("result : ".$element->content);
    }

echo "<br>-------------------------------------------------------------------<br>";

$url="http://detail.china.alibaba.com/offer/1235158006.html";
$html=file_get_html($url);

echo "html lenght : ".strlen($html)."<br>";

foreach($html->find('div[id=J_DetailInside]') as $element) {
    echo("result : ".$element->innertext);
    }
?>

我一直在尝试让它正常工作,但没有成功, 非常感谢任何帮助!

1 个答案:

答案 0 :(得分:2)

原因是如果没有任何使用者,第二个站点会重定向到127.0.0.1 你必须像下面这样用curl设置useragent:

<?php
require_once('simple_html_dom.php');

$url="http://www.aliexpress.com/item/100FT-7-Core-Strand-550-Parachute-Cord-Nylon-Lanyard-Desert-Paracord-Survival-Kits-For-Climbing-Camping/541809415.html";
$html=file_get_html($url);

echo "html lenght : ".strlen($html)."<br>";

foreach($html->find('meta[property=og:image]') as $element) {
    echo("result : ".$element->content);
    }

echo "<br>-------------------------------------------------------------------<br>";

$url="http://detail.china.alibaba.com/offer/1235158006.html";


$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($curl,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.13');
$pagie = curl_exec($curl);
curl_close($curl);



$html=str_get_html($pagie);

echo "html lenght : ".strlen($html)."<br>";

foreach($html->find('div[id=J_DetailInside]') as $element) {
    echo("result : ".$element->innertext);
    }
?>

btw,div [id = J_DetailInside]似乎取得太多