令人烦恼的软件错误导致我们的一些HTML被字面上数千的空标记所困扰。例如,一行应如下所示:
<p>Hello, world!</p>
但相反,它看起来像这样:
<span><span><span><span><span><p>Hello, world!</p></span></span></span></span></span>
通常情况下,我会执行一个简单的查找/替换来删除<span>
标记,但这些标记中的某些实际上是有用的。我可以针对HTML运行什么正则表达式来删除这些多余的标签?或者我可以使用另一种工具吗?
编辑:为了澄清,一些span
标签实际上是有用的,我们需要保留这些标签,例如:
<span style="border-top: 1px solid black">Hello, world!</span>