Question

我正在尝试从该网站https://www.gumtree.co.za抓取信息，但是我不确定如何获取该物业的网址。

这就是我所拥有的：

class GumtreeSpider(scrapy.Spider):
    name = "gumtree"
    start_urls = ['https://www.gumtree.co.za/s-house-rentals-flat-rentals-offered/cape-town/v1c9071l3100006p1',
                  'https://www.gumtree.co.za/s-houses-flats-for-sale/cape-town/v1c9074l3100006p1']

    def parse(self, response):

        for prop in response.css('div.tileV1'):
            link = 'https://www.gumtree.co.za' + prop.css('div.title  a.tile-title-text::attr(href)').get()

我尝试了多种组合，但似乎无法正确解决。有什么建议么？谢谢！

Answer 1

您要在网页上准确抓取些什么？顶部轮播中的广告列表？

如果是，则需要查看Javascript XHR请求，它们是动态加载的，因此您必须检查不同的请求以找到所需的内容。

无法使用Scrapy连接'str'和'NoneType'对象

1 个答案: