我正在尝试用Python解析/搜索/修改一些HTML,但是当有重复的兄弟标记划分字符串时,我遇到了问题。
例如字符串:"“$ 7,500,000”,引用“$ 10,000,000”。"
重复标记HTML:
<font style="font-size:12pt;"></font>
<font style="font-style:italic;font-size:12pt;">$</font>
<font style="font-style:italic;font-size:12pt;">7</font>
<font style="font-style:italic;font-size:12pt;">,</font>
<font style="font-style:italic;font-size:12pt;">500</font>
<font style="font-style:italic;font-size:12pt;">,000</font>
<font style="font-size:12pt;">” with a reference to “</font>
<font style="font-style:italic;font-size:12pt;">$</font>
<font style="font-style:italic;font-size:12pt;">10,0</font>
<font style="font-style:italic;font-size:12pt;">00,000</font>
<font style="font-size:12pt;">”.</font>
&#13;
带有组合标签的所需输出:
<font style="font-size:12pt;"></font>
<font style="font-style:italic;font-size:12pt;">$7,500,000</font>
<font style="font-size:12pt;">” with a reference to “</font>
<font style="font-style:italic;font-size:12pt;">$10,000,000</font>
<font style="font-size:12pt;">”.</font>
&#13;
我尝试过使用Tidy HTML,但我看到的唯一选择就是完全删除标签(使用&#34; drop-font-tags&#34;选项),这是我不想要的,因为我仍然想要标签提供的样式。