所以我正在寻找一个从文本中提取HTML标签(没有属性或嵌套标签)的Sed命令。文本应按如下方式转换:
<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.
变为:
This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.
我尝试了这个命令sed 's/^.*>\([^<]*\)<.*$/\1/'
,但这不完全正确:(
和一个sed表达式从一开始就修剪不必要的空格[空格或制表符] 字符串的结尾。
提前致谢! :)
答案 0 :(得分:0)
正如一些人所提到的,HTML不适合正则表达式。
尽管如此,这个可能是一个起点(在vim中测试)
:%s:<\([^>]*\)>\(.*\)</\1>:\2: