javascript - 如何刮相对图像

时间：2012-08-24 16:27:02

标签： javascript html parsing dom scrape

如果我查看亚马逊按钮，将项目添加到其网站上的列表中，您可以在此处查看：

它是如何工作的？我很确定它以某种方式刮擦了页面，但它似乎得到了每个图像，无论是flash图像，jpg还是其他什么，即使有问题的网站使用相对的img src而不是绝对的完整网站网址

下面的示例页面，显示的所有图片都是jpg，这很酷，但所有img src都是相对含义的，没有“http://blah.com”在它们之前

除了解析html源代码之外，还有更好的方法来获取图像吗？

或者他们只是做了一百万ifs，如果他们不立即受到打击？

答案 0 :(得分：0)

它看起来像是解析页面的HTML并查找语义上标识为主图像，名称和价格的内容。例如，如果您查看没有任何电子商务产品的页面，例如：http://www.theglobeandmail.com/它将页面h1元素作为产品名称，将主图像（首页故事图像）作为产品图像。

所以他们在幕后做了很多猜测。使用HTML 5语义标记，您可以为此类事物建立标准，但除非每个人都在使用它，否则您只是在进行有根据的猜测。