Question

我正在尝试处理一堆HTML。我想删除我的后半部分标签。基本上我开始：

</div></div><div class="_3o-d" id="education

并希望以：

结束

</div></div>

我试过了：

workSection = re.split('<.*?$',workSection)[0]

但这匹配第一个'＆lt;'并留下一个空字符串。有没有办法匹配最后一个实例？或者以某种方式从最后开始？

我也知道分裂然后选择第一个选项可能不是这样做的最佳方式，并准备现在就挨打。

Answer 1

只需使用[^<]代替.

>>> re.split('<[^<]*$', '</div></div><div class="_3o-d" id="education')
['</div></div>', '']