我正在浏览python的网络系列,我真的很新。我能够将博客的所有帖子提取出一个字符串列表。这些字符串包含我想要删除的HTML标记。
我按照这个回答
Strip HTML from strings in Python
但是我收到了错误
<ipython-input-42-d28731ec9a50> in strip_tags(html)
14 def strip_tags(html):
15 s = MLStripper()
---> 16 s.feed(html)
17 return s.get_data()
C:\ProgramData\Anaconda3\lib\html\parser.py in feed(self, data)
108 as you want (may include '\n').
109 """
--> 110 self.rawdata = self.rawdata + data
111 self.goahead(0)
112
TypeError: must be str, not list
HELP !!
谢谢:P
答案 0 :(得分:2)
你可以试试正则表达式。
<(.*?)> and </(.*?)>