我正在创建一个网络抓取工具。我是ganna给它一个URL,它将扫描.html文件的目录和子目录。我一直在寻找两种选择:
scandir($url)
。这适用于本地文件,但不适用于http网站。这是因为文件权限吗?我猜它不应该工作,因为每个人都可以访问你的网站文件是危险的。
搜索链接并关注它们。我可以在索引文件上执行file_get_contents,查找链接,然后将它们跟随到.html文件。
这两项中的任何一项是否有效?还是有第三种选择?
答案 0 :(得分:1)
查找html文件的唯一方法是解析服务器返回的文件内容,除非它们很少有机会在服务器上启用目录浏览,这是通常禁用的第一件事,你没有访问权限浏览目录列表,只浏览他们准备向您展示的内容,并让您使用。
你必须开始http://www.mysite.com并继续扫描链接到html文件,如果他们有asp / php或其他文件然后返回html内容怎么办?
答案 1 :(得分:1)
您是否考虑过使用wget
?它可以抓取网站并仅下载具有特定扩展名的文件。