我想知道如何在php中构建一个站点爬虫,它可以检测网站的每个页面并在xml文件中生成一个条目。我见过很多网站这样做,所以我很好奇如何从头开始,或者有任何脚本或教程来教它。
答案 0 :(得分:2)
不要使用正则表达式。解析html的正确方法是使用DOMDocument对象。
答案 1 :(得分:0)
这是算法
步骤1->获取网站的地址,验证地址格式是否正确,并以页面(www.xyz.com/page.html)结束,而不是(www.xyz.com/)。
步骤2->获取文件的内容,使用正则表达式尝试获取页面列表
步骤3->在数据库中收集它们以备将来使用,并对这些文件执行第2步。