抓住每日漫画并将其存储在本地

时间:2011-03-02 17:30:51

标签: ubuntu scheduled-tasks wget copying

我想从www.explosm.net/comics复制每日漫画并存储在本地文件夹中。

漫画具有唯一的名称,并根据创建者存储在多个位置。

像这样:

  • www.explosm.net/db/files/Comics/Rob/comic1.png
  • www.explosm.net/db/files/Comics/Dave/comic2.png

但是,每日漫画都可以通过相同的网址www.explosm.net/comics获取,它会将您重定向到最新的漫画。但不确定这是否有用。

我和cron一起经历了一些与cron的关系,但是我缺乏知识并没有给我带来任何满意的结果。

提前致谢。

1 个答案:

答案 0 :(得分:0)

您可能需要查看cURL。您需要的是一个脚本,当您请求www.explosm.net/comics时,它会调用cURL来获取服务器所服务的页面源。然后,您将解析返回的数据,查找显示漫画的img标记。

在您拥有相关src标记的img属性后,您可以使用cURL发出另一个请求,以实际下载图像并将返回的数据保存到本地文件中。

看起来实际漫画图片的来源,即您要查找的图片的来源以http://www.explosm.net/db/files/Comics开头,因此您可以使用正则表达式(如下所示)来确定要下载的图片的网址

src\=\"(http:\/\/www\.explosm\.net\/db\/files\/Comics\/[^"]*)\"

网址将成为比赛中的第一个组。