禁用javascript时无法抓取网页的所有元素

时间:2020-06-14 14:43:30

标签: javascript python web-scraping scrapy

我想抓取一个非英语的网站,但是有一个问题。当我在给定的URL中禁用javascript时,尽管有很多容器,但仅显示10个容器,因此,我的蜘蛛只能抓取10个容器。 顺便说一下,页面上没有“更多”按钮,唯一的方法是向下滚动并等到下一个10个容器被加载,并且在禁用javascript时不会发生这种情况。

在禁用javascript的情况下,我可以怎么抓取所有容器?

谢谢

这是我的代码:

    def parse(self, response):
        containers = response.xpath("//div[@class='col-xs-12']")
        for container in containers:
            doctor_name = container.xpath(".//div[@class='dr_name']/text()").get()
            doctor_specialty = container.xpath(".//h3[@class='row dr_proficiency']/text()").get()
            visited_count = container.xpath(".//div[@class='visited_count']/text()").get()
            viewpoint_number = container.xpath(".//span[@class='count']/text()").get()
            address = container.xpath(".//div[@class='row dr_address']/text()").get()
            yield{
                'doctor_name':doctor_name,
                'doctor_specialty':doctor_specialty,
                'visited_count':visited_count,
                'viewpoint_number':viewpoint_number,
                'address':address
            }

0 个答案:

没有答案