Question

我有一个网站（http://a-site.com），其中包含许多链接。如何使用wget抓取并grep所有类似的文件链接？

<a href="/user/333333/follow_user" class="btn" rel="nofollow">Follow</a>

我尝试了这个但是这个命令只能在一个页面上获取所有类似的链接，但不能递归地跟随其他链接找到类似的链接。

$ wget -erobots=off --no-verbose -r --quiet -O - http://a-site.com 2>&1 | \
  grep -o '['"'"'"][^"'"'"']*/follow_user['"'"'"]'

Answer 1

您可能希望使用--accept-regex的{{1}}选项，而不是通过wget：

grep

（未经测试，正则表达式可能需要调整或指定wget -r --accept-regex '['"'"'"][^"'"'"']*/follow_user['"'"'"]' http://a-site.com（请参阅--regex-type），当然还要添加其他有用的选项。