如何在网站上找到所有图像链接?

时间:2015-03-05 23:30:39

标签: php html image indexing web-crawler

让我们举例说一下网站上某些图片的图片网址是这样的:

> www.example.com/store/productimages/details/87540_item_a.jpg
> www.example.com/store/productimages/details/48395_item_b.jpg
> www.example.com/store/productimages/details/75435_item_c.jpg

该网站不断更新,虽然这些图片链接仍然可以上传,但除非他们有确切的链接,否则无法找到确切的图片。

换句话说,一旦www.example.com/store/productimages/details/87540_item_a.jpg的页面被删除并且不再编入索引购买Google,再次找到它的唯一方法就是将某个特定链接复制到某个地方并手动搜索拉起它。

但是,由于存在网络档案,我能够找到其中一些所述链接,但显然只能找到已存档的链接。问题是,这些链接没有被破坏,仍然在特定的www.example.com站点上托管,独立于Web归档站点。 (例如,我可以从该网络存档器中获取6年前的图像链接,粘贴,并像往常一样在地址栏中搜索它。)因此,这让我相信他们仍然在网站上#39;索引。问题是索引不能公开访问。我尝试过使用网站的sitemap.xml,但它是最新的,并且不包含任何旧的图片链接。即使较旧的图像链接的设置方式与这些较新的图像链接的设置方式相同,也可能与旧的图像链接混合在一起。

我的问题是,如果像HTTrack和wget这样的工具只抓取当前网站上的内容,我将如何找到所有这些旧的图片链接?或者我只是使用这些错误?我试图通过告诉他们抓取www.example.com/store/productimages/details/目录下的所有.jpgs来尝试使用HTTrack和wget,但它没有任何结果,因为我禁止它。还有另一种方法可以找到那些旧的图像链接吗?

1 个答案:

答案 0 :(得分:-1)

因为在你的例子中,图像都是数字,你可以一个接一个地尝试所有数字。 即有你的浏览器/ wget / curl ...

尝试获取名称为00000.jpg的文件..... infinity.jpg

并且服务器将提供该文件(如果存在)。

如果它们不是数字,请让您的程序运行所有可能的组合,这些组合与您知道的文件名模式相匹配。

总的来说,如果您没有根据网站向其标准用户提供的机制访问数据,则听起来您反对网站所有者的意图。这本身并不是一件坏事,因为有趣的结果可能来自无意识的用途,这是发明者没有想到的,并且不一定违背他们的意愿。 (你可能会试着询问他们是否有任何异议)