我希望抓取大约100个结构相同的网页,但我需要的图片在每个实例中都有不同的名称。
图片代码位于:
#content div.artwork img.artwork
我需要下载该结果的src网址。
有什么想法吗?我在.txt文件中有url,并且在mac os x框中。
答案 0 :(得分:1)
我不确定如何在文件中使用类似“选择器”的查询,但Perl正则表达式也可以完成这项工作:
for url in `cat urls.txt`; do wget -O- $url; done | \
perl -nle 'print $1 if /<img.+?class="artwork".+?src="([^"]+)"/'