结合重复的同级HTML标记

时间:2015-04-28 20:34:56

标签: python html parsing

我正在尝试用Python解析/搜索/修改一些HTML,但是当有重复的兄弟标记划分字符串时,我遇到了问题。

例如字符串:"“$ 7,500,000”,引用“$ 10,000,000”。"

重复标记HTML:



<font style="font-size:12pt;"></font>
<font style="font-style:italic;font-size:12pt;">$</font>
<font style="font-style:italic;font-size:12pt;">7</font>
<font style="font-style:italic;font-size:12pt;">,</font>
<font style="font-style:italic;font-size:12pt;">500</font>
<font style="font-style:italic;font-size:12pt;">,000</font>
<font style="font-size:12pt;">” with a reference to “</font>
<font style="font-style:italic;font-size:12pt;">$</font>
<font style="font-style:italic;font-size:12pt;">10,0</font>
<font style="font-style:italic;font-size:12pt;">00,000</font>
<font style="font-size:12pt;">”.</font>
&#13;
&#13;
&#13;

带有组合标签的所需输出:

&#13;
&#13;
<font style="font-size:12pt;"></font>
<font style="font-style:italic;font-size:12pt;">$7,500,000</font>
<font style="font-size:12pt;">” with a reference to “</font>
<font style="font-style:italic;font-size:12pt;">$10,000,000</font>
<font style="font-size:12pt;">”.</font>
&#13;
&#13;
&#13;

我尝试过使用Tidy HTML,但我看到的唯一选择就是完全删除标签(使用&#34; drop-font-tags&#34;选项),这是我不想要的,因为我仍然想要标签提供的样式。

0 个答案:

没有答案