Question

我有一个网站，里面有一个网址。这是href标签

我需要解析一个网站以保留“ href”值。

在此网站页面上，只有一个“ href”标签。这个“ href”没有类名。

我使用带有卷曲的bash壳

现在，我尝试了这个：

卷曲http://MyWebsite | grep“ href =” |切-d'>'-f4 |切-d'<'-f1

但没有结果。我是bash shell的新手

有人有主意吗？谢谢您的回答

Answer 1

如果您想保留href=部分

curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"'

如果您只想要没有href=

的网址

curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"' | awk -F\" '{print$2}'

Answer 2

我知道只有一个href，但以防万一... you can also extract来自sed和grep的HTML文档中所有锚点的URL：

curl -s http://MyWebsite  | grep -o '<a .*href=.*>' | sed -e 's/<a /\n<a /g' | sed -e 's/<a .*href=['"'"'"]//' -e 's/["'"'"'].*$//' -e '/^$/ d'