Python将HTML标记转换为适当的实体

时间:2016-04-29 10:13:17

标签: python html parsing beautifulsoup

我们必须将html转换为带有实体的正确文本。 html包含未排序的列表,段落,中断,排序列表等......

我们需要的是这样的事情:

<p> Title <br /> Subtitle </p>
<ul>
    <li><b>list item 1</b></li>
    <li>list item 2</li>
</ul>
<p>Some more text</p>

这应该正确转换为:

Title\n
Subtitle\n\n
&bull;List item 1\n
&bull;List item 2\n
Some more text

大胆,强壮,斜体等......可以忽略不计。

我使用过正则表达式,BeautifulSoup和lxml。 我已经在互联网上阅读了很多文章,其中Stackoverflow,但我找不到合适的解决方案。

我想,如果浏览器能够显示它,它也可以正确解析。

0 个答案:

没有答案