使用wget和cron下载网页

时间:2010-11-18 01:29:58

标签: linux cron wget tar

好的,所以我知道我可以使用:

wget -r <website> > <file>

获取网页并保存。我的问题是,我将如何使用cron和wget每小时甚至分钟获取一个网页,然后将它们保存到文件夹中,压缩并压缩它,然后继续添加它以便日后查看

我知道我可以手动执行此操作,我的目标是基本上下载10到20分钟,大约4个小时(如果它变得更长并不重要)并将所有内容附加到一个漂亮的目录中,然后zip表示保存空间的目录,并在当天晚些时候检查它们。

2 个答案:

答案 0 :(得分:2)

编辑cron表

crontab -e

您可以添加这样的条目

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

每隔20分钟下载/保存文件。

这是关于crontab表达式的small reference,因此您可以调整值

要自动TAR文件,crontab会稍微复杂一些:

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`

这可以在中午进行,如果你想在深夜完成它会更复杂,因为你需要在前一天进行TAR,但我认为你会得到这个想法。

答案 1 :(得分:1)

或没有cron:

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done

10次,每10分钟

编辑:像这样使用拉链

zip foo.zip file1 file2 allfile*.html