使用bash shell解析网站中的href标签

时间:2018-11-21 13:09:09

标签: bash shell curl

我有一个网站,里面有一个网址。这是href标签

我需要解析一个网站以保留“ href”值。

在此网站页面上,只有一个“ href”标签。这个“ href”没有类名。

我使用带有卷曲的bash壳

现在,我尝试了这个:

卷曲http://MyWebsite | grep“ href =” |切-d'>'-f4 |切-d'<'-f1

但没有结果。我是bash shell的新手

有人有主意吗?谢谢您的回答

2 个答案:

答案 0 :(得分:1)

如果您想保留href=部分

curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"'

如果您只想要没有href=

的网址
curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"' | awk -F\" '{print$2}'

答案 1 :(得分:0)

我知道只有一个href,但以防万一... you can also extract来自sed和grep的HTML文档中所有锚点的URL:

curl -s http://MyWebsite  | grep -o '<a .*href=.*>' | sed -e 's/<a /\n<a /g' | sed -e 's/<a .*href=['"'"'"]//' -e 's/["'"'"'].*$//' -e '/^$/ d'