Question

我需要从某个域下载所有pdf文件。该域名大约有6000个pdf，其中大多数没有html链接（要么他们已经删除了链接，要么他们从未放置过一个链接。）

我知道有大约6000个文件，因为我在Google上搜索：filetype：pdf site：*。adomain.com

但是，Google仅列出前1000个结果。我相信有两种方法可以达到这个目的：

a）使用Google。但是，如何从Google获得所有6000个结果？也许刮刀？（试过scroogle，没有运气） b）跳过Google并直接在域上搜索pdf文件。当大多数人没有被联系时，我该怎么做？

Answer 1

如果删除了文件的链接，并且您没有列出目录的权限，那么基本上不可能知道哪个URL背后有pdf文件。

如果您认为过去曾存在指向文件的链接，您可以查看http://www.archive.org并查看页面的上一个状态。

要以递归方式检索网站上提到的所有pdf，我建议使用wget。来自http://www.gnu.org/software/wget/manual/html_node/Advanced-Usage.html#Advanced-Usage

的示例

您想从http服务器上的目录下载所有GIF。你试过'wget http://www.server.com/dir/ *。gif'，但这不起作用，因为http检索不支持globbing。在这种情况下，请使用：
     wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
更详细，但效果是一样的。 '-r -l1'表示递归检索（请参阅递归下载），最大深度为1.' - no-parent'表示忽略对父目录的引用（参见基于目录的限制）和'-A .gif'表示只下载gif文件。 '-A“* .gif”'也会有效。

（简单地用.pdf替换.gif！）

从域中获取所有pdf文件（例如* .adomain.com）

1 个答案: