如何刮相对图像

时间:2012-08-24 16:27:02

标签: javascript html parsing dom scrape

如果我查看亚马逊按钮,将项目添加到其网站上的列表中,您可以在此处查看:

http://www.amazon.co.uk/wishlist/get-button

它是如何工作的?我很确定它以某种方式刮擦了页面,但它似乎得到了每个图像,无论是flash图像,jpg还是其他什么,即使有问题的网站使用相对的img src而不是绝对的完整网站网址

下面的示例页面,显示的所有图片都是jpg,这很酷,但所有img src都是相对含义的,没有“http://blah.com”在它们之前

http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html

除了解析html源代码之外,还有更好的方法来获取图像吗?

或者他们只是做了一百万ifs,如果他们不立即受到打击?

1 个答案:

答案 0 :(得分:0)

它看起来像是解析页面的HTML并查找语义上标识为主图像,名称和价格的内容。例如,如果您查看没有任何电子商务产品的页面,例如:http://www.theglobeandmail.com/它将页面h1元素作为产品名称,将主图像(首页故事图像)作为产品图像。

所以他们在幕后做了很多猜测。使用HTML 5语义标记,您可以为此类事物建立标准,但除非每个人都在使用它,否则您只是在进行有根据的猜测。