Question

我创建了一个爬行新闻的蜘蛛。我也想经营那只蜘蛛并且安排它。它在django项目中。这样，spider就会对数据进行爬网并将其放入数据库，而django将使用它来显示相同的数据。这是我的蜘蛛

`NewsSpider（CrawlSpider）类：名称=“新闻”

start_urls = ['https://zeenews.india.com/latest-news']

def start_requests(self):
    urls = ['https://zeenews.india.com/latest-news']

    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse)


def parse(self, response):


    item = NewsScraperItem()
    
    data = response.css('div.sec-con-box')

    item['headlines'] = data.css('h3::text').extract_first()

    item['content'] = data.css('p::text').extract_first()

    return item`

items.py： `进口沙皮从scrapy_djangoitem导入DjangoItem 从news.models导入LatestNews

NewsScraperItem（DjangoItem）类：＃在此处定义项目的字段，例如：＃名称= scrapy.Field（） django_model = LatestNews`

Answer 1

要启用调度功能并确保搜寻器在后台进行工作，建议您使用Django Background Tasks repo。

查看文档here。

爬行蜘蛛并安排它们

1 个答案: