我正在使用 scrapy 抓取网站,并且有一个html结构:
<div>
<div class = "mydiv">abc</div>
<div class = "mydiv">xyz</div>
<div class = "mydiv">ghi</div>
</div>
如果div中的文本与 xyz 匹配,我想删除div,包括包含文本的div和其后的所有其他div。我已经使用xpath成功提取了每个div中的文本。无论如何我可以在python中实现这一点。
由于第二个div内的文本与所需文本 xyz 匹配,因此需要删除第二个和第三个div 我的最终输出将是:
<div>
<div class = "mydiv">abc</div>
</div>