如何以编程方式从其他网站抓取图像?

时间:2010-03-04 14:14:27

标签: javascript html image

几年前,我帮助某人整理了一个网页(仅供本地个人使用,不提供给全世界),该网页汇集了他最喜欢的几个网站上的户外网络摄像头照片。这可以节省一次查看多个网站的时间。当这些网站上的图片有固定的网址时,我们很容易。当URL可预测地改变时(例如,当URL具有日期时),我们能够编写一些JavaScript代码。但现在他想添加一个图像,其文件名似乎随机变化,我不知道如何处理。基本上,我想:

  1. 以编程方式访问其他网站以查找特定图片的网址。
  2. 使用<img>标记将该网址插入我的网页。
  3. 我意识到这可能是一个令人困惑和不寻常的问题。我愿意尽可能地帮助澄清。我只是不确定如何询问这家伙想做什么。

    更新:David Dorward提到使用JavaScript执行此操作会违反Same Origin Policy。我愿意接受有关解决此问题的其他方法的建议。

4 个答案:

答案 0 :(得分:1)

它可能是一个严重侵犯版权的行为。

图片最像是在页面中包含容器 - 只需定期访问该页面并解析img标记。确保您评论的随机位不仅仅是一个随机参数,以强制浏览器获取新图像而不是检索缓存版本。

答案 1 :(得分:1)

  1. 使用Cross Domain AJAX获取远程页面的html。
  2. 然后解析它以获取感兴趣的图像的网址。
  3. 然后for each url do <img src=url />

答案 2 :(得分:0)

如果您在项目中使用php,则可以使用CURL库获取其他网站内容,并使用正则表达式解析它以从源代码中获取图像URL。

答案 3 :(得分:0)

你的个人资料中有一个Python问题,所以我只想说如果我试图这样做,我会选择Python&amp; Beautiful Soup。具有能够处理无效HTML的附加优势。