我正在尝试处理一堆HTML。我想删除我的后半部分标签。基本上我开始:
</div></div><div class="_3o-d" id="education
并希望以:
结束</div></div>
我试过了:
workSection = re.split('<.*?$',workSection)[0]
但这匹配第一个'&lt;'并留下一个空字符串。有没有办法匹配最后一个实例?或者以某种方式从最后开始?
我也知道分裂然后选择第一个选项可能不是这样做的最佳方式,并准备现在就挨打。
答案 0 :(得分:1)
只需使用[^<]
代替.
>>> re.split('<[^<]*$', '</div></div><div class="_3o-d" id="education')
['</div></div>', '']