Question

我有一个带有标准标题的html文件

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head><title></title><link href="../Styles/stylesheet.css" type="text/css" rel="stylesheet" /></head><body><h1>Chapter 17</h1><div class="entry-content_wrap">

p标签中有一些div和许多普通文本，我的问题是这些标签内是另一个带有属于句子的文本的标签

<p> Some text bla bla bla <other important text> bla.</p>

我有很多文件，我在寻找一个正则表达式，可以删除周围的标签并保留其他所有内容。我正在使用Sigil，后者提供了正则表达式的查找/替换功能。

此刻我有(\<[^p]+\>)，它与<other important text>匹配，但也有很多HTML标头，我莫名其妙地没能抓住other important text

的周围<>

Answer 1

如果我正确理解了该问题，则要删除所有不属于段落标记的尖括号。在Javascript中，我会像这样替换两次：

'your text'.replace(/<(?!(p>|\/p))/g, '').replace(/(?<!(<p|\/p))>/g, '')

我正在使用负向后看和负向后看功能。

删除EPUB文件的<p>标签内的嵌套HTML标签

1 个答案: