wget只从网站下载PDF

时间:2015-02-18 18:09:32

标签: pdf wget

我正在尝试从http://www.fayette-pva.com/下载所有PDF文件。

我认为问题在于,将鼠标悬停在链接上以下载PDF镶边时会在左下角显示不带.pdf文件扩展名的网址。我看到并使用了与此类似的其他论坛答案,但是当使用我的光标悬停在PDF链接上时,.pdf扩展名用于URL。我尝试过以下链接中的相同代码,但它没有获取PDF文件。

以下是我一直在测试的代码:

wget --no-directories -e robots=off -A.pdf -r -l1 \
    http://www.fayette-pva.com/sales-reports/salesreport03-feb-09feb2015/

我在一个页面上使用它,我知道它上面有一个PDF文件。

完整的代码应该是

wget --no-directories -e robots=off -A.pdf -r http://www.fayette-pva.com/

相关答案:WGET problem downloading pdfs from website

我不确定下载整个网站是否有用,如果不会永远。如何解决此问题并仅下载PDF?

1 个答案:

答案 0 :(得分:2)

是的,问题正是您所说的:URL不包含常规或绝对文件名,而是调用脚本/ servlet / ...来分发实际文件。

解决方案是使用--content-disposition选项,该选项告诉wget遵守HTTP响应中的Content-Disposition字段,该字段包含实际文件名:

HTTP/1.1 200 OK
(...)
Content-Disposition: attachment; filename="SalesIndexThru09Feb2015.pdf"
(...)
Connection: close

wget支持此选项,至少从版本1.11.4开始,已经有7年了。

所以你会做以下事情:

wget --no-directories --content-disposition -e robots=off -A.pdf -r \
    http://www.fayette-pva.com/