如何从Python中的文本列表中删除HTML标记

时间:2018-05-03 06:36:57

标签: python html string list tags

我正在浏览python的网络系列,我真的很新。我能够将博客的所有帖子提取出一个字符串列表。这些字符串包含我想要删除的HTML标记。

我按照这个回答

Strip HTML from strings in Python

但是我收到了错误

<ipython-input-42-d28731ec9a50> in strip_tags(html)
     14 def strip_tags(html):
     15     s = MLStripper()
---> 16     s.feed(html)
     17     return s.get_data()

C:\ProgramData\Anaconda3\lib\html\parser.py in feed(self, data)
    108         as you want (may include '\n').
    109         """
--> 110         self.rawdata = self.rawdata + data
    111         self.goahead(0)
    112 

TypeError: must be str, not list

HELP !!

谢谢:P

1 个答案:

答案 0 :(得分:2)

你可以试试正则表达式。

<(.*?)> and </(.*?)>