如何每五分钟下载一个网页?

时间:2009-09-02 11:39:33

标签: python download webpage wget web-crawler

我想下载一个网页列表。我知道wget可以做到这一点。但是,每隔五分钟下载一次URL并将其保存到文件夹似乎超出了wget的能力。 有没有人知道java或python或Perl中的一些工具来完成任务?

提前致谢。

2 个答案:

答案 0 :(得分:7)

听起来像你想use cron with wget

<小时/> 但是如果你开始使用python:

import time
import os

wget_command_string = "wget ..."

while true:
    os.system(wget_command_string)
    time.sleep(5*60)

答案 1 :(得分:5)

编写一个使用wget的bash脚本,并将其放在crontab中,每5分钟运行一次。 (* / 5 * * * *)

如果您需要保留所有这些网页的历史记录,请使用当前的unixtime在脚本的开头设置一个变量,并将其附加到输出文件名。