Question

我需要做的是通过以下命令检索链接：

wget --quiet -O - linkname

然后将其传输到sed，只显示页面上的链接而不是格式化。

到目前为止，我只显示了包含所有html代码的行。

Answer 1

您可以使用grep（仅限匹配）选项将结果传递给-o：

$ wget --quiet -O - http://stackoverflow.com | grep -o 'http://[^"]*'

要获取href="..."内的所有网址：

grep -oP '(?<=href=")[^"]*(?=")'

Answer 2

我相信这就是我所寻找的。

sed -n "/href/ s/.*href=['\"]\([^'\"]*\)['\"].*/\1/gp"

Answer 3

grep "<a href=" sourcepage.html
  |sed "s/<a href/\\n<a href/g" 
  |sed 's/\"/\"><\/a>\n/2'
  |grep href
  |sort |uniq

a href