我有一个网站(http://a-site.com),其中包含许多链接。如何使用wget抓取并grep所有类似的文件链接?
<a href="/user/333333/follow_user" class="btn" rel="nofollow">Follow</a>
我尝试了这个但是这个命令只能在一个页面上获取所有类似的链接,但不能递归地跟随其他链接找到类似的链接。
$ wget -erobots=off --no-verbose -r --quiet -O - http://a-site.com 2>&1 | \
grep -o '['"'"'"][^"'"'"']*/follow_user['"'"'"]'
答案 0 :(得分:1)
您可能希望使用--accept-regex
的{{1}}选项,而不是通过wget
:
grep
(未经测试,正则表达式可能需要调整或指定wget -r --accept-regex '['"'"'"][^"'"'"']*/follow_user['"'"'"]' http://a-site.com
(请参阅--regex-type
),当然还要添加其他有用的选项。