什么是抓取特定html元素的一批网址并检索图像的最佳方法?

时间:2010-02-10 13:27:59

标签: web-services sysadmin wget

我希望抓取大约100个结构相同的网页,但我需要的图片在每个实例中都有不同的名称。

图片代码位于:

#content div.artwork img.artwork

我需要下载该结果的src网址。

有什么想法吗?我在.txt文件中有url,并且在mac os x框中。

1 个答案:

答案 0 :(得分:1)

我不确定如何在文件中使用类似“选择器”的查询,但Perl正则表达式也可以完成这项工作:

for url in `cat urls.txt`; do wget -O- $url; done | \
  perl -nle 'print $1 if /<img.+?class="artwork".+?src="([^"]+)"/'