删除EPUB文件的<p>标签内的嵌套HTML标签

时间:2020-08-04 12:02:17

标签: html regex epub

我有一个带有标准标题的html文件

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head><title></title><link href="../Styles/stylesheet.css" type="text/css" rel="stylesheet" /></head><body><h1>Chapter 17</h1><div class="entry-content_wrap">

p标签中有一些div和许多普通文本,我的问题是这些标签内是另一个带有属于句子的文本的标签

<p> Some text bla bla bla <other important text> bla.</p>

我有很多文件,我在寻找一个正则表达式,可以删除周围的标签并保留其他所有内容。我正在使用Sigil,后者提供了正则表达式的查找/替换功能。

此刻我有(\<[^p]+\>),它与<other important text>匹配,但也有很多HTML标头,我莫名其妙地没能抓住other important text

的周围<>

1 个答案:

答案 0 :(得分:0)

如果我正确理解了该问题,则要删除所有不属于段落标记的尖括号。 在Javascript中,我会像这样替换两次:

'your text'.replace(/<(?!(p>|\/p))/g, '').replace(/(?<!(<p|\/p))>/g, '')

我正在使用负向后看和负向后看功能。