Question

我试图删除这类div的网站：

<div class="mindatath">Density:</div>
<div class="mindatam2">
3.98 - 4.1 g/cm
<sup>3</sup>
(Measured)    3.997 g/cm
<sup>3</sup>
(Calculated)
</div>
</div>

好的，我需要mindatam2 div中的值。但是这个班级存在很多div。如何将两个div关联到我知道要提取的值是什么？

我尝试使用Scrapy来显示所有div值：

response.xpath('//div[@class="mindatam2"]/text()').extract()

Answer 1

如果您的密码格式相似，则可以使用regex 例如 response.xpath('//div[@class="mindatam2"]/text()').re(r'([\d\.\-\s]+)g/cm')

网页刮痧与python和scrapy

1 个答案: