我正在尝试从该网站https://www.gumtree.co.za抓取信息,但是我不确定如何获取该物业的网址。
这就是我所拥有的:
class GumtreeSpider(scrapy.Spider):
name = "gumtree"
start_urls = ['https://www.gumtree.co.za/s-house-rentals-flat-rentals-offered/cape-town/v1c9071l3100006p1',
'https://www.gumtree.co.za/s-houses-flats-for-sale/cape-town/v1c9074l3100006p1']
def parse(self, response):
for prop in response.css('div.tileV1'):
link = 'https://www.gumtree.co.za' + prop.css('div.title a.tile-title-text::attr(href)').get()
我尝试了多种组合,但似乎无法正确解决。有什么建议么? 谢谢!
答案 0 :(得分:0)
您要在网页上准确抓取些什么?顶部轮播中的广告列表?
如果是,则需要查看Javascript XHR请求,它们是动态加载的,因此您必须检查不同的请求以找到所需的内容。