Question

我正在使用Scrapy在python中编写一个Web爬虫。目的是以预定的时间间隔监视对网页的更改。登录到网站后，蜘蛛每X分钟请求一个网页，并从页面中提取某些数据并保存到文本文件中。事实证明，文本文件仅在蜘蛛关闭时写入，文本文件中的行不按时间顺序排列。我无法弄清楚发生了什么。也许这是Scrapy模块的一种特定工作方式？有什么想法吗？

import scrapy
from scrapy.http import Request
from scrapy.http import FormRequest
from scraping_example.loginform import fill_login_form
from datetime import datetime
import time


class ExampleSpiderSpider(scrapy.Spider):
    name = 'example_spider'
    allowed_domains = ['example.com']
    start_urls = ['http:/www.example.com/login']
    login_user = 'edging780'
    login_pass = ''

    def parse(self, response):
        (args, url, method) = fill_login_form(response.url,
                response.body, self.login_user, self.login_pass)
        return FormRequest(url, method=method, formdata=args,
                           callback=self.after_login)

    def after_login(self, response):
        for i in range(0,6):
            request = Request('https://www.example.com/page_to_scrape', callback=self.get_table, dont_filter = True)
            request.meta['dateTime'] = str(datetime.now())
            request.meta['order'] = str(i)
            yield request
            time.sleep(600)
        return

    def get_table(self, response):
        table = response.xpath('//table[@class="example_table"]/tbody/tr[not(contains(@class,"thead"))]') 
        Data=[]
        for n_row in range(0,len(table)):
            row = table[n_row]
            Data.append(row.xpath('td[1]/text()').extract())    

        dictionary = {'Time': response.meta['dateTime'],
                 'Order': response.meta['order'],
                 'Data': Data}            
        with open('output.txt', 'a') as f:
            f.write(str(dictionary) + '\n')
        return

Answer 1

您可能需要阅读此内容：https://doc.scrapy.org/en/latest/faq.html#does-scrapy-crawl-in-breadth-first-or-depth-first-order

并且：LIFO (last in, first out)

Scrapy不会按照您给他的顺序处理请求，但您可以更改此行为（您可以在上面的链接中找到选项）。

此外，您可能需要考虑使用Items和feed exporters，而不是像处理您的项目一样处理您的项目...

编辑：最重要的是：

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

我还需要设置

CONCURRENT_REQUESTS = 1

后一种设置是逐个发出请求

scrapy spider：按时间顺序输出

1 个答案: