在某些情况下,您希望获得最具代表性的图像 例如,网页Pocket会在你收集时尝试添加图像 一个网页。
您如何以编程方式定义哪个图像是关键 图片? 最合适的方法是什么?
答案 0 :(得分:3)
大多数寻求在Facebook或Pocket等网站上共享的网站都会有Open Graph protocol图片。这通常是使用格式head
的{{1}}代码中的图片。 Open Graph协议由Facebook,Pocket,Reddit等公司使用和查找,并且在使用中已经相当普遍。
对于不遵循此类标准的网站,开发人员通常会使用已解决问题的第三方工具,例如Embedly。只需输入一个URL,它就会返回一些有关哪些内容对缩略图图片有用的信息。
如果您想要创建自己的引擎,您可能需要研究DOM定位分析,并尝试通过抓取许多文章和网页来尝试找到自己的算法,以找到好的模式。
答案 1 :(得分:2)
研究scraper.py,了解reddit如何使用BeautifulSoup从提交给它的链接中查找代表性图片。