Question

我正在尝试用Python解析/搜索/修改一些HTML，但是当有重复的兄弟标记划分字符串时，我遇到了问题。

例如字符串：＆＃34;“$ 7,500,000”，引用“$ 10,000,000”。＆＃34;

重复标记HTML：

＆＃13;

<font style="font-size:12pt;"></font>
<font style="font-style:italic;font-size:12pt;">$</font>
<font style="font-style:italic;font-size:12pt;">7</font>
<font style="font-style:italic;font-size:12pt;">,</font>
<font style="font-style:italic;font-size:12pt;">500</font>
<font style="font-style:italic;font-size:12pt;">,000</font>
<font style="font-size:12pt;">” with a reference to “</font>
<font style="font-style:italic;font-size:12pt;">$</font>
<font style="font-style:italic;font-size:12pt;">10,0</font>
<font style="font-style:italic;font-size:12pt;">00,000</font>
<font style="font-size:12pt;">”.</font>

＆＃13;

带有组合标签的所需输出：

＆＃13;

<font style="font-size:12pt;"></font>
<font style="font-style:italic;font-size:12pt;">$7,500,000</font>
<font style="font-size:12pt;">” with a reference to “</font>
<font style="font-style:italic;font-size:12pt;">$10,000,000</font>
<font style="font-size:12pt;">”.</font>

＆＃13;

我尝试过使用Tidy HTML，但我看到的唯一选择就是完全删除标签（使用＆＃34; drop-font-tags＆＃34;选项），这是我不想要的，因为我仍然想要标签提供的样式。

结合重复的同级HTML标记

0 个答案: