Question

我想抓取一个非英语的网站，但是有一个问题。当我在给定的URL中禁用javascript时，尽管有很多容器，但仅显示10个容器，因此，我的蜘蛛只能抓取10个容器。顺便说一下，页面上没有“更多”按钮，唯一的方法是向下滚动并等到下一个10个容器被加载，并且在禁用javascript时不会发生这种情况。

在禁用javascript的情况下，我可以怎么抓取所有容器？

谢谢

这是我的代码：

    def parse(self, response):
        containers = response.xpath("//div[@class='col-xs-12']")
        for container in containers:
            doctor_name = container.xpath(".//div[@class='dr_name']/text()").get()
            doctor_specialty = container.xpath(".//h3[@class='row dr_proficiency']/text()").get()
            visited_count = container.xpath(".//div[@class='visited_count']/text()").get()
            viewpoint_number = container.xpath(".//span[@class='count']/text()").get()
            address = container.xpath(".//div[@class='row dr_address']/text()").get()
            yield{
                'doctor_name':doctor_name,
                'doctor_specialty':doctor_specialty,
                'visited_count':visited_count,
                'viewpoint_number':viewpoint_number,
                'address':address
            }

禁用javascript时无法抓取网页的所有元素

0 个答案: