如何获得最具代表性的网页图片?

时间:2015-04-27 02:49:35

标签: html parsing web-crawler

在某些情况下,您希望获得最具代表性的图像 例如,网页Pocket会在你收集时尝试添加图像 一个网页。

您如何以编程方式定义哪个图像是关键 图片? 最合适的方法是什么?

2 个答案:

答案 0 :(得分:3)

大多数寻求在Facebook或Pocket等网站上共享的网站都会有Open Graph protocol图片。这通常是使用格式head的{​​{1}}代码中的图片。 Open Graph协议由Facebook,Pocket,Reddit等公司使用和查找,并且在使用中已经相当普遍。

对于遵循此类标准的网站,开发人员通常会使用已解决问题的第三方工具,例如Embedly。只需输入一个URL,它就会返回一些有关哪些内容对缩略图图片有用的信息。

如果您想要创建自己的引擎,您可能需要研究DOM定位分析,并尝试通过抓取许多文章和网页来尝试找到自己的算法,以找到好的模式。

答案 1 :(得分:2)

研究scraper.py,了解reddit如何使用BeautifulSoup从提交给它的链接中查找代表性图片。