如何排除某些xpath路径而不会被刮掉?

时间:2015-07-23 21:37:34

标签: scrapy scrapy-spider

我试图废弃必要的数据,但当我试图排除不需要的部分时,我无法做到这一点。请帮助抓取必要的数据?

案例 - 1:

<div class="abc xyz">
      <div class="aaaaaa bbbbbb">
           "I dont want to include this"
      </div>
      ***"I just want to scrap this"***
</div>

案例 - 2:

<div class="abc xyz">
      <div class="aaaaaa bbbbbb">
      </div>
      ***"I just want to scrap this"***
</div>

这两种情况,我试图获得的输出是“我只想废弃这个”。

已经尝试使用'.// div [contains(@class,“abc”)] // text()'进行抓取 - 但在第一种情况下,它输出为“我不想包含此我只是想要废弃这个“,在第二种情况下,预期的输出被刮掉。

1 个答案:

答案 0 :(得分:0)

这个结果会有一些垃圾,但它会完成这项工作:

result = response.xpath('//div[@class="abc xyz"]/text()').extract()
result = "".join(result)