用换行符(或空格)替换所有html标签

时间:2018-06-13 18:52:48

标签: python html python-2.7 beautifulsoup

我想弄清楚如何用换行符替换所有html标签。

我有一个包含信息的csv文件,但我不想要html。如果我得到文本而不是显示html,则返回的字符串被连接起来(使用下面的例子,它将返回ActingDirectingIntroduction给ActingCollege WritingIntroductiong To Writing)。

我希望能够替换所有html标签(< ...>内的任何内容)替换为换行符。任何帮助将不胜感激,例如下面!

<ul>
<li>
 Acting
</li>
<li>
 Directing
</li>
<li>
 Introduction to Acting
</li>
<li>
 College Writing
</li>
<li>
 Introduction to Writing
</li>
</ul>

1 个答案:

答案 0 :(得分:1)

以下是使用优秀库lxml.html

的方法
import lxml.html
document = lxml.html.document_fromstring(html_string)
print(document.text_content())

以下是相关文档http://lxml.de/lxmlhtml.html#html-element-methods