我试图废弃必要的数据,但当我试图排除不需要的部分时,我无法做到这一点。请帮助抓取必要的数据?
案例 - 1:
<div class="abc xyz">
<div class="aaaaaa bbbbbb">
"I dont want to include this"
</div>
***"I just want to scrap this"***
</div>
案例 - 2:
<div class="abc xyz">
<div class="aaaaaa bbbbbb">
</div>
***"I just want to scrap this"***
</div>
这两种情况,我试图获得的输出是“我只想废弃这个”。
已经尝试使用'.// div [contains(@class,“abc”)] // text()'进行抓取 - 但在第一种情况下,它输出为“我不想包含此我只是想要废弃这个“,在第二种情况下,预期的输出被刮掉。
答案 0 :(得分:0)
这个结果会有一些垃圾,但它会完成这项工作:
result = response.xpath('//div[@class="abc xyz"]/text()').extract()
result = "".join(result)