如何使用wget抓取网页上的所有文档

时间:2017-06-12 22:43:05

标签: wget

所以这是我为研究目的所做的事情。

我正在尝试从此链接中删除所有文件

https://services.crtc.gc.ca/pub/ListeInterventionList/Default-Defaut.aspx?en=2015-134&dt=i&lang=e&S=C&PA=t&PT=nc&PST=a

wget将此URL中的字符识别为dt =等外部命令。所有文件都隐藏在链接后面。我可以使用什么命令与wget将所有文件刮到文件夹中?

1 个答案:

答案 0 :(得分:0)

要让wget以递归方式下载,有一个onShownModally选项。这可以占用很多并且花费时间,所以如果你知道你关心的链接只有一个级别,你可以使用-r或另一个整数,如果你想要下到特定的深度。

与wget本身无关,但我怀疑你没有转义URL的字符,而你的shell正在解释它们。您必须在-l 1(反斜杠)之前添加任何特殊字符。因此,如果您的网址是:

\

在大多数shell上,您必须按如下方式输入命令:

http://www.somewhere.com/file.php?p1=v1&p2=v2

需要转义的确切字符取决于shell,但这是我将用于tcsh。