使用wget从一个站点获取类似链接

时间:2014-11-27 21:52:22

标签: grep wget

我有一个网站(http://a-site.com),其中包含许多链接。如何使用wget抓取并grep所有类似的文件链接?

<a href="/user/333333/follow_user" class="btn" rel="nofollow">Follow</a>

我尝试了这个但是这个命令只能在一个页面上获取所有类似的链接,但不能递归地跟随其他链接找到类似的链接。

$ wget -erobots=off --no-verbose -r --quiet -O - http://a-site.com 2>&1 | \
  grep -o '['"'"'"][^"'"'"']*/follow_user['"'"'"]'

1 个答案:

答案 0 :(得分:1)

您可能希望使用--accept-regex的{​​{1}}选项,而不是通过wget

grep

(未经测试,正则表达式可能需要调整或指定wget -r --accept-regex '['"'"'"][^"'"'"']*/follow_user['"'"'"]' http://a-site.com (请参阅--regex-type),当然还要添加其他有用的选项。