我正在尝试提取我的所有域子站点并将其添加到Excel工作表中。到目前为止,我使用过的所有Web爬网程序仅报告爬网基础页面中的URL。我想知道是否有一种方法可以报告从基础页面无法访问的网址,如果不能,则有什么可能的解决方案。
答案 0 :(得分:0)
搜寻器通常用于访问许多网站及其页面。如果您需要单个域中网页的网络地址列表,则无需使用网络搜寻器。 保留从首页传出的链接列表。检查它们是否属于同一域。遍历访问每个页面的列表,并在每次使用整个域之前重做检查。请记住,如果没有指向相同域中特定页面的任何链接,则该页面将无法访问。