Question

所以我正在寻找一个从文本中提取HTML标签（没有属性或嵌套标签）的Sed命令。文本应按如下方式转换：

<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

变为：

This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

我尝试了这个命令sed 's/^.*>$[^<]*$<.*$/\1/'，但这不完全正确：（

和一个sed表达式从一开始就修剪不必要的空格[空格或制表符] 字符串的结尾。

提前致谢！：）

Answer 1

正如一些人所提到的，HTML不适合正则表达式。

尽管如此，这个可能是一个起点（在vim中测试）

:%s:<\([^>]*\)>\(.*\)</\1>:\2: