我需要做的是通过以下命令检索链接:
wget --quiet -O - linkname
然后将其传输到sed,只显示页面上的链接而不是格式化。
到目前为止,我只显示了包含所有html代码的行。
答案 0 :(得分:6)
您可以使用grep
(仅限匹配)选项将结果传递给-o
:
$ wget --quiet -O - http://stackoverflow.com | grep -o 'http://[^"]*'
要获取href="..."
内的所有网址:
grep -oP '(?<=href=")[^"]*(?=")'
答案 1 :(得分:1)
我相信这就是我所寻找的。 p>
sed -n "/href/ s/.*href=['\"]\([^'\"]*\)['\"].*/\1/gp"
答案 2 :(得分:0)
grep "<a href=" sourcepage.html
|sed "s/<a href/\\n<a href/g"
|sed 's/\"/\"><\/a>\n/2'
|grep href
|sort |uniq