允许Wget仅下载PDF的应用程序类型

时间:2014-09-25 10:36:24

标签: linux unix web-crawler wget

我在Window机器上使用wget。我只想要pdf文件。如果申请/类型是pdf。仅允许下载

我正在使用此命令

wget  --accept pdf www.google.com

正在下载谷歌的索引页面。

  

长度:19404(19K)[text / html]保存到:   `index.html@gfe_rd=cr& EI = 5O8jVLycNuvA8gftoYGIBg'

我不想允许。如果只有pdf。

任何想法

谢谢

1 个答案:

答案 0 :(得分:1)

通常这是

  

wget --header ='接受:application / pdf' www.google.com

但google.com似乎忽略了Accept:标头,因此您可能希望

  

wget --debug --header ='接受:application / pdf' www.google.com 2>& 1 | grep'内容类型:application / pdf'

并测试该命令的结果。