从站点中删除未链接的文档

时间:2014-02-26 17:37:37

标签: list pdf web-crawler document intranet

我接管了一个内部网站点,该站点有大约20,000个文档,这些文档在7年内一次又一次地被链接。粗略地说,2.8K的文件是相互关联的。是否有一种方法或工具可以在一系列未链接的文件夹中创建文档列表,以便删除?

我知道这不是直接的“编程”问题,但我敢打赌,我不是唯一一个面临这种困境的网络程序员。

1 个答案:

答案 0 :(得分:0)

我认为您可以使用以下步骤获得所需内容:

  1. 使用dirls
  2. 等操作系统命令在磁盘上创建文件列表
  3. 使用Xenu Link Sleuth或类似工具构建链接文档列表。
  4. 查找第一个列表中第二个列表中不存在的所有条目。
  5. 删除与步骤3中找到的条目对应的文件
  6. 再次运行Xenu Link Sleuth以确保您没有删除任何有用的内容。