我正在尝试使用以下网址格式镜像网站:
http://example.com/homepage?page=1
我想只镜像使用查询字符串从page = 1到page = 100的那些。如何使用wget尽可能高效地完成此任务?
我不需要递归镜像,只需要1到100页。保存CSS / JS也不错。排除图像也很棒,以保持快速(仅对文本感兴趣)。
帮助?
答案 0 :(得分:2)
创建网址列表:
seq 1 100 | xargs -n 1 -I {} echo http://example.com/homepage?page={} > URLS.txt
然后使用wget:
下载所有内容wget -i URLS.txt