如何自动扫描所有可用页面?
我能想到的一种方法是从主页上递归扫描。
但它无法扫描后端CMS。
那些扫描工具如何运作?
答案 0 :(得分:1)
愚蠢的网络抓取工具:
首先创建一个数组来存储链接,然后自己放一个URL。创建第二个空数组以存储访问过的URL。现在开始执行以下操作的程序。
如果您假设通过跟随一定数量的随机链接(可能是数十亿)可以访问Web上的每个页面,那么只需重复步骤1到4最终将导致下载整个Web。由于网络实际上并不是完全连接的图形,因此您必须从不同的点开始处理,最终到达每个页面。