使用wget从网站下载特定类型的所有文件

时间:2013-08-16 13:33:06

标签: recursion screen-scraping wget

以下不起作用。我不知道为什么它只停在起始网址中,不要进入其中的链接来搜索给定的文件类型。

  

wget -r -A .pdf home_page_url

以递归方式下载网站中的所有pdf文件的任何其他方式。 ?

3 个答案:

答案 0 :(得分:1)

它可能基于robots.txt。尝试添加-e robots=off

其他可能的问题是基于cookie的身份验证或wget的代理拒绝。 See these examples.

编辑:根据sunsite.univie.ac.at

,“。pdf”中的点错误

答案 1 :(得分:1)

以下cmd适用于我,它会下载网站的图片

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/

答案 2 :(得分:0)

这肯定是因为HTML中的链接没有以/结尾。

Wget不会认为它是文件(但与您的过滤器不匹配)不会遵循此操作:

<a href="link">page</a>

但是请遵循以下步骤:

<a href="link/">page</a>

您可以使用--debug选项查看是否是实际问题。

我不知道有什么好的解决方案。我认为这是一个错误。