我需要从某个域下载所有pdf文件。该域名大约有6000个pdf,其中大多数没有html链接(要么他们已经删除了链接,要么他们从未放置过一个链接。)
我知道有大约6000个文件,因为我在Google上搜索:filetype:pdf site:*。adomain.com
但是,Google仅列出前1000个结果。我相信有两种方法可以达到这个目的:
a)使用Google。但是,如何从Google获得所有6000个结果?也许刮刀? (试过scroogle,没有运气) b)跳过Google并直接在域上搜索pdf文件。当大多数人没有被联系时,我该怎么做?
答案 0 :(得分:0)
如果删除了文件的链接,并且您没有列出目录的权限,那么基本上不可能知道哪个URL背后有pdf文件。
如果您认为过去曾存在指向文件的链接,您可以查看http://www.archive.org并查看页面的上一个状态。
要以递归方式检索网站上提到的所有pdf,我建议使用wget。来自http://www.gnu.org/software/wget/manual/html_node/Advanced-Usage.html#Advanced-Usage
的示例您想从http服务器上的目录下载所有GIF。你试过'wget http://www.server.com/dir/ *。gif',但这不起作用,因为http检索不支持globbing。在这种情况下,请使用:
wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
更详细,但效果是一样的。 '-r -l1'表示递归检索(请参阅递归下载),最大深度为1.' - no-parent'表示忽略对父目录的引用(参见基于目录的限制)和'-A .gif'表示只下载gif文件。 '-A“* .gif”'也会有效。
(简单地用.pdf替换.gif!)