使用wget在shtml页面上下载所有zip文件

时间:2016-04-29 18:34:00

标签: linux bash download wget

我一直在尝试将此网站上的所有zip文件下载到EC2服务器。但是,它没有识别链接,因此没有下载任何内容。我认为这是因为shtml文件要求启用SSI并且以某种方式导致wget出现问题。但我真的不明白那些东西。

这是我使用失败的代码。

wget -r -l1 -H -t1 -nd -N -np -A.zip -erobots=off http://www.fec.gov/finance/disclosure/ftpdet.shtml#a2015_2016

感谢您提供的任何帮助!

1 个答案:

答案 0 :(得分:2)

源代码中没有zip链接,这就是您无法通过wget下载它们的原因,它们是通过javascript生成的。文件列表位于节点<fec_file status="Archive"></fec_file>

下的http://fec.gov//finance/disclosure/tables/foia_files_summary.xml

您可以编写脚本来解析xml文件并将节点转换为实际链接,因为它们具有模式。

<强>更新

提到@cyrus,文件也在ftp.fec.gov/FEC/上,您可以使用wget -m镜像ftp,-A zip将下载限制为zip文件,即:

wget -A zip -m --user=anonymous --password=test@test.com ftp://ftp.fec.gov/FEC/

wget -r

wget -A zip --ftp-user=anonymous --ftp-password=test@test.com -r ftp://ftp.fec.gov/FEC/*