在隔离文件下我指的是一个Web服务器上的文件,例如你有一些链接到某些pdf文件的html文件但是也有一些文件,这些文件通过这些html文件无法访问
示例:
on the web server you have these files:
index.html
pdf1.pdf
pdf2.pdf
pdf3.pdf
and trough the index.html you can reach pdf1.pdf and pdf2.pdf
and I want to print out the pdf3.pdf
希望这是可以理解的。
我不需要帮助代码,只需使用解决方案
答案 0 :(得分:1)
我可能会使用wget --recursive
抓取可访问的内容,然后将抓取结果与服务器上文件夹的实际内容进行比较。你真的需要用Python做这个吗?
答案 1 :(得分:0)
让Google为您做到这一点:
当然,您可能希望为可能的javascript和webfont资源制作一些例外,因为爬虫可能与用户的浏览器不完全相同。