从电子商务产品页面中提取主要产品图像

时间:2015-01-31 19:45:09

标签: magento html-parsing bigcommerce html-parser image-extraction

我正在寻找从零售商网站上的产品页面中提取主图像的选项,问题是产品页面中有多个图像(相关图像),我认为可行的一种方法是提取所有图像链接,下载每个图像链接并比较每个图像的大小,并考虑存储字节数最大的那个作为主要产品图像。

显然这将是一种非常低效的方法,我们知道大多数零售商使用某些电子商务平台,如magento,bigcommerce等,主要的电子商务平台只是少数,是否有可能检测电子商务平台并利用提供的模板由他们每个人精确提取主要产品形象?

我知道这种方法永远不会是完美的,但我正在寻找一种大概精确到80%左右的算法,它是否可行?

3 个答案:

答案 0 :(得分:1)

您是否有一个零售商列表,您希望从中提取图像?如果是这样,那么请手动浏览每个零售商的网站,查看其HTML,并创建一些代码,以便从该特定零售商成功提取图像。如果没有,那么我担心你运气不好 - 你可以抓住页面上最大的图像,或者使用其他启发式图片,但不能保证你没有抓住实际的产品形象。

创建某种通用实用程序的问题是每个电子商务平台都有自己的结构来显示产品图像,并且可以随每个站点更改该结构。例如,仅仅因为Magento 通常以某种方式构建其图像,并不意味着您总是以这种方式看待它们 - 它完全取决于主题和&# #39;目前已申请。

答案 1 :(得分:0)

您可以使用简单的dom html lib来提取html。就magento而言,产品缩略图是产品页面上“product-image”类中的img标签。您可以将其提取为尺寸合适的缩略图。

答案 2 :(得分:-1)

如果您知道零售商和图像,也可以通过脚本下载它并检查foreach循环语句中的大小并保存最大的。

由于