Question

有一个公开创建的黄页网站，我想从中下载内容。基本上，网站的20,000个内容的每个条目都被URL后面的数字索引。例如：foo.com/22将获取ID 20的条目。依此类推......

页面的内容是一些div中的包装器。我面临的问题是如何遍历所有数字并从网站获取内容。

我相信第一步就是这样。

for($i = 0; $i < 20,000; $i++){

  $get = file_get_contents('http://foo.com/'.$i){
     $title = preg_match('[^title$.]', $get); 
     $title/... 
  }

}

我遇到的问题是代码本身。我需要找到一个合适的正则表达式模式来阅读HTML并找到里面的内容说... div标签：<div class='title'> </div>

现在我知道正则表达式在解析HTMl方面没有效果，所以我使用了所谓的simple_html_dom，它也不是很有效。所以，我想知道是否有其他选择。

第二个问题是，在迭代所有这些URI时。我的电脑经常崩溃。我认为这是由于内存上限。所以，我想知道PHP中是否有一种方法可以循环迭代。就像做一些任务一样，睡觉/等到它稳定然后再做下一个任务。

我对任何有关如何在线获取类似内容的想法持开放态度。

从在线内容中获取大量数据。

0 个答案: