我使用简单的HTML Dom工作,但现在我希望它开始抓取它返回的网址,而不抓取它已经抓取的网址。我怎么能用PHP / MySQL / HTML做到这一点?
<?php
include "/simple_html_dom.php";
$target_url = "http://www.daparadise.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('a') as $link){
echo $href->href."<br />";
}
$html -> clear();
?>
我查了一下,但我似乎找不到任何关于搜索它返回的结果的信息。
答案 0 :(得分:0)
您是否列出了特定网页的图片?你的代码做到了。而且它没有爬行。对于抓取,您通常会查找<a>
标记,获取src
属性,将其推送到堆栈或队列,然后进一步抓取。
总体思路:
<a>
代码。对于每个<a>
标记,请执行以下操作:
src
属性src
属性推送到队列。