我们必须将html转换为带有实体的正确文本。 html包含未排序的列表,段落,中断,排序列表等......
我们需要的是这样的事情:
<p> Title <br /> Subtitle </p>
<ul>
<li><b>list item 1</b></li>
<li>list item 2</li>
</ul>
<p>Some more text</p>
这应该正确转换为:
Title\n
Subtitle\n\n
•List item 1\n
•List item 2\n
Some more text
大胆,强壮,斜体等......可以忽略不计。
我使用过正则表达式,BeautifulSoup和lxml。 我已经在互联网上阅读了很多文章,其中Stackoverflow,但我找不到合适的解决方案。
我想,如果浏览器能够显示它,它也可以正确解析。