$url = 'http://www.w3schools.com/js/js_loop_for.asp';
$html = @file_get_contents($url);
$doc = new DOMDocument();
@$doc->loadHTML($html);
$xml = @simplexml_import_dom($doc);
$images = $xml->xpath('//img');
var_dump($images);
die();
输出是:
array(0) { }
但是,在页面源代码中我看到了:
<img border="0" width="336" height="69" src="/images/w3schoolslogo.gif" alt="W3Schools.com" style="margin-top:5px;" />
修改:$html
的内容显示在此页面的<body>
标记处。知道为什么吗?
答案 0 :(得分:9)
看来$ html的内容在此页面的标签处停止。知道为什么吗?
是的,您必须为此页面提供有效的用户代理。
$url = 'http://www.w3schools.com/js/js_loop_for.asp';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT, "MozillaXYZ/1.0");
curl_exec($ch);
将所有内容输出到结尾</html>
,包括您请求的<img border="0" width="336" height="69" src="/images/w3schoolslogo.gif" alt="W3Schools.com" style="margin-top:5px;" />
如果没有用户代理的简单wget或curl仅返回<body>
标记。
$url = 'http://www.w3schools.com/js/js_loop_for.asp';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT, "MozillaXYZ/1.0");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);
$doc = new DOMDocument();
$doc->loadHTML($html);
$xml = simplexml_import_dom($doc);
$images = $xml->xpath('//img');
var_dump($images);
die();
编辑: 我的第一篇文章表示xpath仍然存在问题......我只是没有尽职尽责,上面的更新代码效果很好。我忘了强制curl输出到字符串而不是打印到屏幕上(默认情况下)。
答案 1 :(得分:0)
为什么要将simplexml加入混合?您已经将w3fools中的HTML加载到DOM类中,该类已经包含了一个非常好的XPath查询引擎。
[...snip...]
$doc->loadHTML($html);
$xpath = new DOMXPath($doc)
$images = $xpath->xpath('//img');
[...snip...]
答案 2 :(得分:-1)
IMG标记由javascript生成。 如果您通过wget下载了此页面,您会发现HTML中没有IMG标记。
我认为这是因为用户代理字符串。 如果我提供“Mozilla / 5.0(X11; Linux i686 on x86_64; rv:2.0)Gecko / 20100101 Firefox / 4.0”作为用户代理ID,我将整个页面提供。