Question

我试图废弃必要的数据，但当我试图排除不需要的部分时，我无法做到这一点。请帮助抓取必要的数据？

案例 - 1：

<div class="abc xyz">
      <div class="aaaaaa bbbbbb">
           "I dont want to include this"
      </div>
      ***"I just want to scrap this"***
</div>

案例 - 2：

<div class="abc xyz">
      <div class="aaaaaa bbbbbb">
      </div>
      ***"I just want to scrap this"***
</div>

这两种情况，我试图获得的输出是“我只想废弃这个”。

已经尝试使用'.// div [contains（@class，“abc”）] // text（）'进行抓取 - 但在第一种情况下，它输出为“我不想包含此我只是想要废弃这个“，在第二种情况下，预期的输出被刮掉。

Answer 1

这个结果会有一些垃圾，但它会完成这项工作：

result = response.xpath('//div[@class="abc xyz"]/text()').extract()
result = "".join(result)

如何排除某些xpath路径而不会被刮掉？

1 个答案: