Question

在隔离文件下我指的是一个Web服务器上的文件，例如你有一些链接到某些pdf文件的html文件但是也有一些文件，这些文件通过这些html文件无法访问

示例：

on the web server you have these files:
index.html
pdf1.pdf
pdf2.pdf
pdf3.pdf
and trough the index.html you can reach pdf1.pdf and pdf2.pdf 
and I want to print out the pdf3.pdf

希望这是可以理解的。

我不需要帮助代码，只需使用解决方案

Answer 1

我可能会使用wget --recursive抓取可访问的内容，然后将抓取结果与服务器上文件夹的实际内容进行比较。你真的需要用Python做这个吗？

Answer 2

让Google为您做到这一点：

通过谷歌搜索您的网站
等到它被抓取
从您的网络服务器日志中获取一组可访问的网址;或者设置日志以显示所服务的文件系统中的实际文件并收集这些文件。
删除谷歌找不到的所有文件

当然，您可能希望为可能的javascript和webfont资源制作一些例外，因为爬虫可能与用户的浏览器不完全相同。

可以使用python找到隔离的文件吗？

2 个答案: