使用'sed'修剪HTMl标签和不必要的空格

时间:2013-10-20 13:31:24

标签: regex sed

所以我正在寻找一个从文本中提取HTML标签(没有属性或嵌套标签)的Sed命令。文本应按如下方式转换:

<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

变为:

This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

我尝试了这个命令sed 's/^.*>\([^<]*\)<.*$/\1/',但这不完全正确:(

和一个sed表达式从一开始就修剪不必要的空格[空格或制表符] 字符串的结尾。

提前致谢! :)

1 个答案:

答案 0 :(得分:0)

正如一些人所提到的,HTML不适合正则表达式。

尽管如此,这个可能是一个起点(在vim中测试)

:%s:<\([^>]*\)>\(.*\)</\1>:\2: