我有一个网站,我现在支持并需要列出所有实时页面/网址。 是否有一个爬虫我可以用来指向我的主页并让它列出它找到的所有页面/网址。
然后我可以删除任何不进入此列表的内容,因为它们将是从未清理过的孤儿页面/网址?
我正在使用DNN并希望杀死不需要的页面。
答案 0 :(得分:0)
由于您使用的是数据库驱动的CMS,因此您应该可以通过DNN管理界面或直接查看数据库来执行此操作。比爬虫更可靠。
答案 1 :(得分:0)
回到过去,我使用wget来实现这个目的,使用它的递归检索功能。它可能不是最有效的方式,但它绝对有效。 YMMV,当然,因为有些网站会比其他网站更多地返回 lot 内容。