应用错误收集

时间：2012-04-05 09:34:28

标签： php web-crawler

我正在创建一个网络抓取工具。我是ganna给它一个URL，它将扫描.html文件的目录和子目录。我一直在寻找两种选择：

这两项中的任何一项是否有效？还是有第三种选择？

答案 0 :(得分：1)

查找html文件的唯一方法是解析服务器返回的文件内容，除非它们很少有机会在服务器上启用目录浏览，这是通常禁用的第一件事，你没有访问权限浏览目录列表，只浏览他们准备向您展示的内容，并让您使用。

你必须开始http://www.mysite.com并继续扫描链接到html文件，如果他们有asp / php或其他文件然后返回html内容怎么办？

答案 1 :(得分：1)

您是否考虑过使用wget？它可以抓取网站并仅下载具有特定扩展名的文件。