我有一个网站,里面有一个网址。这是href标签
我需要解析一个网站以保留“ href”值。
在此网站页面上,只有一个“ href”标签。这个“ href”没有类名。
我使用带有卷曲的bash壳
现在,我尝试了这个:
卷曲http://MyWebsite | grep“ href =” |切-d'>'-f4 |切-d'<'-f1
但没有结果。我是bash shell的新手
有人有主意吗?谢谢您的回答
答案 0 :(得分:1)
如果您想保留href=
部分
curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"'
如果您只想要没有href=
curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"' | awk -F\" '{print$2}'
答案 1 :(得分:0)
我知道只有一个href,但以防万一... you can also extract来自sed和grep的HTML文档中所有锚点的URL:
curl -s http://MyWebsite | grep -o '<a .*href=.*>' | sed -e 's/<a /\n<a /g' | sed -e 's/<a .*href=['"'"'"]//' -e 's/["'"'"'].*$//' -e '/^$/ d'