正则表达式删除超链接

时间:2015-01-05 12:39:23

标签: regex grep

输入:
来自http://www.emaxhealth.com/1275/misdiagnosing的来源http://www.cancerresearchuk.org/about-cancer/type在回顾她的经历和想法博客http://fty720.blogspot.com甚至带有新名称。她离家很远。


从about输入我想删除超链接。以下是我正在尝试的正则表达式

http://[\w|\W|\d|\s]*(?=[ ])

此正则表达式将在遇到单词' http' 后包含所有字符,数字和空格,并将一直持续到第一个空格。 不幸的是,它没有按预期工作。请帮我找出我的错误。谢谢

2 个答案:

答案 0 :(得分:1)

尝试此sed命令

sed  's/http[^ ]\+//g' FileName

输出

来源于此,叙述她的经历和想法博客甚至带有新名称。她离家很远。

答案 1 :(得分:1)

要查找超链接,请使用:

\b(https?)://[A-Z0-9+&@#/%?=~_|$!:,.;-]*[A-Z0-9+&@#/%=~_|$]

或:


如果你想找到html标签,请使用:

<a\b[^>]*>(.*?)</a>