网页刮痧与python和scrapy

时间:2016-06-17 19:52:15

标签: python-2.7 web-scraping scrapy

我试图删除这类div的网站:

<div class="mindatath">Density:</div>
<div class="mindatam2">
3.98 - 4.1 g/cm
<sup>3</sup>
(Measured)    3.997 g/cm
<sup>3</sup>
(Calculated)
</div>
</div>

好的,我需要mindatam2 div中的值。但是这个班级存在很多div。如何将两个div关联到我知道要提取的值是什么?

我尝试使用Scrapy来显示所有div值:

response.xpath('//div[@class="mindatam2"]/text()').extract()

1 个答案:

答案 0 :(得分:0)

如果您的密码格式相似,则可以使用regex 例如 response.xpath('//div[@class="mindatam2"]/text()').re(r'([\d\.\-\s]+)g/cm')