应用错误收集

时间：2011-05-10 03:34:22

标签： php sitemap

我想知道如何在php中构建一个站点爬虫，它可以检测网站的每个页面并在xml文件中生成一个条目。我见过很多网站这样做，所以我很好奇如何从头开始，或者有任何脚本或教程来教它。

答案 0 :(得分：2)

不要使用正则表达式。解析html的正确方法是使用DOMDocument对象。

答案 1 :(得分：0)

这是算法
步骤1-＆gt;获取网站的地址，验证地址格式是否正确，并以页面（www.xyz.com/page.html）结束，而不是（www.xyz.com/）。
步骤2-＆gt;获取文件的内容，使用正则表达式尝试获取页面列表步骤3-＆gt;在数据库中收集它们以备将来使用，并对这些文件执行第2步。