如何从我链接的网站中提取图像?

时间:2010-03-28 00:55:01

标签: image hyperlink

如果您熟悉Reddit,您就会知道所有包含图片的帖子如何在提交标题旁边显示一个小缩略图预览。 Reddit如何做到这一点?它只是检查链接是否以.jpg, .png, .bmp等结束?

3 个答案:

答案 0 :(得分:3)

reddit将尝试从任何来源提取缩略图 - 而不仅仅是图片网址。这首先是通过为特定网站设置规则来实现的,其次是通过一个通用流程来检索未知网址的缩略图 - 并且是自动periodic task

reddit的(许多)好处之一是the source code is open,如果您了解Python,则应该查看/r2/lib/scraper.py以获取有关此过程如何工作的更详细视图。

此外,虽然StackOverflow是回答编程相关问题的好地方,但您可能还想查看reddit自己的/r/redditdev以获取有关reddit开发的信息。

Hey there redditor!

答案 1 :(得分:1)

  1. 的确,如果网址包含.jpg,.png, 等等。使用它。
  2. 如果该网站是 热门域名(flickr.com, youtube.com,amazon.com等),有 要提取的一组预定义规则 你知道的东西是相关的 (可能是特色图片,YouTube thumbnail,亚马逊产品图片, 等)
  3. 否则,如果你需要的话 使用是一些HTML,你必须自己挖掘它。你可以选择 页面上的第一个,大小最大, 甚至是你算法上的那个 确定是最相关的(例如,相对较大的,你认为是主体内容。)
  4. 如果你不得不使用最后一个选项,我推荐的一种技术是提取多个图像,A / B测试它们以找到具有最佳点击率的那个。这样你几乎总能得到最好的一个。

答案 2 :(得分:0)

您可以检查<img>代码的内容。