如何使用wget从“维基媒体搜索结果”下载图像?

时间:2010-12-18 12:43:14

标签: linux wget

我需要镜像此页面上显示的每张图片:

  

http://commons.wikimedia.org/w/index.php?title=Special:Search&ns0=1&ns6=1&ns12=1&ns14=1&ns100=1&ns106=1&redirs=0&search=buitenzorg&limit=900&offset=0

镜像结果应该为我们提供完整尺寸的图像,而不是缩略图。 使用wget执行此操作的最佳方法是什么?

更新
很抱歉在过去给你一个死链接&导致这个主题投票失败:(。 我在下面的检查答案中更新了解决方案。

3 个答案:

答案 0 :(得分:0)

正则表达是你朋友我的朋友! 使用cat,egrep和wget你会很快完成这项任务 下载搜索结果URI wget,然后运行

cat DownloadedSearchResults.html | egrep (?<=class="searchResultImage".+href=").+?\.jpg/

这应该为您提供基于http://commons.wikimedia.org/的每个图片网页的链接。现在,对于每个结果,下载并运行:

cat DownloadedSearchResult.jpg | egrep (?<=class="fullImageLink".*href=").+?\.jpg

这应该可以直接链接到该图像可用的最高分辨率。

我希望你的bash知识能完成其余的工作。祝你好运。

答案 1 :(得分:0)

在stackoverflow编辑器中编写所有脚本非常困难,您可以在下面的地址找到该脚本。该脚本仅下载第一页的所有图像,您可以对其进行修改以在另一页中自动执行下载过程。

  

http://pastebin.com/xuPaqxKW

答案 2 :(得分:0)

带着同样的问题来到这里..发现这个&gt;&gt; http://meta.wikimedia.org/wiki/Wikix

我现在无法访问linux机器,所以我还没有尝试过。