Scraper:我们如何在Div类中下载具有打开图像的URL的图像

时间:2018-09-08 16:51:11

标签: web-scraping scrapy

我们如何捕获具有以下代码的图像?因为它与我只捕获src和img的常规格式不同。

<div class="avatar" style="background-image: 
url(customavatars/545/5453285_1410924046.jpg);background-size: cover;background-repeat: no-repeat;background-position: center;width: 120px;height: 120px;border-radius: 70px;margin: 10px 0 10px 10px;" onmouseover="showUserInfoBox('userinfo234340519')" onmouseout="clearShowUserInfoTimer()"></div>

原始网站 访问https://mobile.uwants.com/viewthread.php?tid=19780494&extra=page%3D1

图片:访问https://imgur.com/Gbckna1

谢谢

2 个答案:

答案 0 :(得分:0)

由于将要获取的图像定义为css背景,因此您需要提取style属性的内容,并解析从中获取的css。

您可以尝试自己执行此操作,但是使用现有的库(例如cssutilstinycss2)可能会更容易。

答案 1 :(得分:0)

您可以使用re_first()

response.xpath('//div[@class="avatar"]/@style').re_first(r'url\([^\)]+')