我想弄清楚如何用换行符替换所有html标签。
我有一个包含信息的csv文件,但我不想要html。如果我得到文本而不是显示html,则返回的字符串被连接起来(使用下面的例子,它将返回ActingDirectingIntroduction给ActingCollege WritingIntroductiong To Writing)。
我希望能够替换所有html标签(< ...>内的任何内容)替换为换行符。任何帮助将不胜感激,例如下面!
<ul>
<li>
Acting
</li>
<li>
Directing
</li>
<li>
Introduction to Acting
</li>
<li>
College Writing
</li>
<li>
Introduction to Writing
</li>
</ul>
答案 0 :(得分:1)
以下是使用优秀库lxml.html
import lxml.html
document = lxml.html.document_fromstring(html_string)
print(document.text_content())