使用javascript with scrapy and splash

时间:2016-11-07 09:42:32

标签: python scrapy web-crawler scrapy-splash scrapyjs

我正在抓取一个有javascript的网站转到下一页。我正在使用splash在第一页上执行我的javascript代码。但我能够进入第2页。但我无法进入3,4,5 ....页面。只有一页后停止抓取。

我抓取的链接: http://59.180.234.21:8788/user/viewallrecord.aspx

代码:

import scrapy
from scrapy_splash import SplashRequest
from time import sleep


class MSEDCLSpider(scrapy.Spider):
    name = "msedcl_spider"
    scope_path = 'body > table:nth-child(11) tr > td.content_area > table:nth-child(4) tr:not(:first-child)'
    ref_no_path = "td:nth-child(1) ::text"
    title_path = "td:nth-child(2) ::text"
    end_date_path = "td:nth-child(5) ::text"
    fee_path = "td:nth-child(6) ::text"
    start_urls = ["http://59.180.234.21:8788/user/viewallrecord.aspx"]

    lua_src = """function main(splash)
        local url = splash.args.url
        splash:go(url)
        splash:wait(2.0)
        splash:runjs("document.querySelectorAll('#lnkNext')[0].click()")
        splash:wait(4.0)
        return {
            splash:html(),
        }
        end
        """

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(
                url,
                self.parse,
                endpoint='execute',
                method='POST',
                dont_filter=True,
                args={
                    'wait': 1.0,
                    'lua_source': self.lua_src,
                },
            )


    def parse(self, response):
        print response.status
        scopes = response.css('#page-info').extract()[0]
        print(response.url)
        print(scopes)

我是scrapy和splash的新手。请温柔。谢谢

1 个答案:

答案 0 :(得分:2)

我可以看到两个问题:

  1. 您没有提出这些要求。在start_requests中发出单个请求,响应在self.parse方法中解析,但是从不发送对第3页和其他页的请求。为此,您需要从.parse方法发送一些请求。

  2. 如果您修复了(1),那么您可能会面临下一个问题:Splash不会在请求之间保持页面状态。将每个请求视为打开一个新的私有模式浏览器窗口并执行一些操作;这是设计的。但是这个网站的问题是网页之间的URL不会改变,所以你不能只是开始,例如从第3页开始,然后单击“下一步”页面。

  3. 但我认为有办法解决方法(2)。也许您可以在点击后获取页面html,然后使用splash:set_content将其加载到浏览器中;你也可以保留cookie - scrapy-splash README中有一个例子;虽然看起来这个网站似乎不依赖于cookie来进行分页。

    另一种方法是编写一个脚本来加载所有页面,而不仅是下一页,然后将所有页面的内容返回给客户端。像这样(未经测试):

    function main(splash) 
        splash:go(splash.args.url)
        local pages = {splash:html()}
        for i = 2,100 do             
            splash:runjs("document.querySelectorAll('#lnkNext')[0].click()")            
            splash:wait(4)
            pages[i] = splash:html()
        end
        return pages
    end
    

    要使其工作,您需要更大的超时值;您可能还需要使用更大的--max-timeout选项启动Splash。