Question

我需要镜像此页面上显示的每张图片：

http://commons.wikimedia.org/w/index.php?title=Special:Search&ns0=1&ns6=1&ns12=1&ns14=1&ns100=1&ns106=1&redirs=0&search=buitenzorg&limit=900&offset=0

镜像结果应该为我们提供完整尺寸的图像，而不是缩略图。使用wget执行此操作的最佳方法是什么？

更新
很抱歉在过去给你一个死链接＆amp;导致这个主题投票失败:(。我在下面的检查答案中更新了解决方案。

Answer 1

正则表达是你朋友我的朋友！使用cat，egrep和wget你会很快完成这项任务下载搜索结果URI wget，然后运行

cat DownloadedSearchResults.html | egrep (?<=class="searchResultImage".+href=").+?\.jpg/

这应该为您提供基于http://commons.wikimedia.org/的每个图片网页的链接。现在，对于每个结果，下载并运行：

cat DownloadedSearchResult.jpg | egrep (?<=class="fullImageLink".*href=").+?\.jpg

这应该可以直接链接到该图像可用的最高分辨率。

我希望你的bash知识能完成其余的工作。祝你好运。

Answer 2

在stackoverflow编辑器中编写所有脚本非常困难，您可以在下面的地址找到该脚本。该脚本仅下载第一页的所有图像，您可以对其进行修改以在另一页中自动执行下载过程。

http://pastebin.com/xuPaqxKW

Answer 3

带着同样的问题来到这里..发现这个＆gt;＆gt; http://meta.wikimedia.org/wiki/Wikix

我现在无法访问linux机器，所以我还没有尝试过。