Python Scrapy:来自表单请求的

时间:2018-09-02 20:27:21

标签: python ajax web scrapy

我一直在尝试抓取网站https://fbschedules.com/new-england-patriots-schedule/

该网站使用隐藏表单向php文件https://fbschedules.com/wp-admin/admin-ajax.php

提交ajax请求。

尝试模拟AJAX请求后,scrapy对此代码返回400响应:

def parse(self, response):
    headers = {
        'User_Agent': user_agent,
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Language': 'en-US,en;q=0.5',
        'Accept-Encoding': 'gzip, deflate, br',
        'Referer': 'https://fbschedules.com/new-england-patriots-schedule/',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With': 'XMLHttpRequest',
        'Cookie': cookie,
        'DNT': '1',
        'Connection': 'keep-alive',
        'Cache-Control': 'max-age=0'
    }

    data = {
        'action': 'load_fbschedules_ajax',
        'type': 'NFL',
        'display': 'Season',
        'team': 'New+England+Patriots',
        'current_season': '2018',
        'view': '',
        'conference': '',
        'conference-division': '',
        'ncaa-subdivision': '',
        'ispreseason': '',
        'schedule-week': '',
    }

    yield scrapy.FormRequest.from_response('https://fbschedules.com/wp-admin/admin-ajax.php',
                                           headers=headers,
                                           formdata=data,
                                           method='POST',
                                           callback=self.schedule_parse)

任何朝着正确方向的帮助都将受到赞赏!

编辑:我还应该提到,我使用以下命令将蜘蛛作为单个脚本运行:

def start():
    configure_logging()
    runner = CrawlerRunner()
    runner.crawl(NflSpider)
    d = runner.join()
    d.addBoth(lambda _: reactor.stop())

    reactor.run()

开始抓取页面。 控制台输出如下:

  

2018-09-02 18:20:33 [scrapy.core.engine]信息:蜘蛛开了

     

2018-09-02 18:20:33 [scrapy.extensions.logstats]信息:爬网0页   (以0页/分钟的速度),抓取0件(以0条/分钟的速度)

     

2018-09-02 18:20:33 [scrapy.extensions.telnet]调试:Telnet控制台   收听127.0.0.1:6024

     

2018-09-02 18:20:33 [scrapy.core.engine]调试:已爬网(400)https://fbschedules.com/wp-admin/admin-ajax.php>(引荐:无)< / p>      

2018-09-02 18:20:33 [scrapy.spidermiddlewares.httperror]信息:   忽略响应<400   https://fbschedules.com/wp-admin/admin-ajax.php>:HTTP状态代码为   未处理或不允许

     

2018-09-02 18:20:33 [scrapy.core.engine]信息:关闭蜘蛛   (完成)

1 个答案:

答案 0 :(得分:0)

我有同样的问题, 我通过在FormRequest参数中添加meta参数来处理它。

尝试使用scrapy.FormRequest代替scrapy.FormRequest.from_response

meta = {'handle_httpstatus_all': True}
yield FormRequest('https://fbschedules.com/wp-admin/admin-ajax.php',
                                           headers=headers,
                                           formdata=data,
                                           method='POST',
                                           meta=meta,
                                           callback=self.schedule_parse)