是否可以使用wget以递归方式从特定TLD下载文件?
具体来说,我试图下载Code of Massachusetts Regulations的全文。规则的实际文本存储在多个域中的多个文件中 - 因此我想从index page开始递归下载,但只关注指向.gov和.us域的链接。
答案 0 :(得分:4)
在wget documentation on spanning hosts的帮助下,我能够使用-H和-D标志来完成这项工作:
wget -r -l5 -H -D.us,.gov http://www.lawlib.state.ma.us/source/mass/cmr/index.html