Question

我在python中做简单的正则表达式

我正在尝试re.split，但像['\ r \ n'，'\ r \ n']这样的东西来了而不是答案。有人可以告诉我如何显示实际文本吗？

我试过这句话：

t_html = re.split("<[a-zA-Z0-9\s\w\W]*>[a-zA-Z0-9\s\w\W]*</[a-zA-Z0-9\s\w\W]*>" ,s)

感谢

Answer 1

re.split的本质就是在模式上分裂但不保留它。如果要返回与模式匹配的字符串，可以在模式周围加上括号：re.split（（R），string）其中R是表达式。如果你想说找到所有非重叠匹配，请使用re.findall，它将返回一个列表。有关详细信息和选项，请参阅here。

Answer 2

如果您想使用正则表达式来解析html，请参阅here。