站点地图生成器,从头开始构建

时间:2011-05-10 03:34:22

标签: php sitemap

我想知道如何在php中构建一个站点爬虫,它可以检测网站的每个页面并在xml文件中生成一个条目。我见过很多网站这样做,所以我很好奇如何从头开始,或者有任何脚本或教程来教它。

2 个答案:

答案 0 :(得分:2)

不要使用正则表达式。解析html的正确方法是使用DOMDocument对象。

  1. 将第一页加载到DOMDocument对象中。
  2. 使用XPath语句收集该页面中的所有锚标记hrefs。
  3. 使用这些值查找要加载的页面,重新开始第一步。
  4. http://www.php.net/manual/en/class.domdocument.php

答案 1 :(得分:0)

这是算法
步骤1->获取网站的地址,验证地址格式是否正确,并以页面(www.xyz.com/page.html)结束,而不是(www.xyz.com/)。
步骤2->获取文件的内容,使用正则表达式尝试获取页面列表 步骤3->在数据库中收集它们以备将来使用,并对这些文件执行第2步。