Scrapy管道只保存一页结果

时间:2018-05-04 02:05:09

标签: python web-scraping scrapy scrapy-pipeline

我有一个蜘蛛爬行course_tal,它有一个管道来保存两种类型的物品:

包含课程数据的moocs.csv。 包含评论数据的moocs_review.csv。

这是我的蜘蛛代码:

Usage: adb devices [-l]

其中包含每个课程页面并将详细信息保存到相应的项目中。我在这里得到了分页:

import scrapy
from scrapy import  Request
from scrapy.loader import ItemLoader

from urlparse import urljoin 
from moocs.items import MoocsItem,MoocsReviewItem



class MoocsSpiderSpider(scrapy.Spider):
    name = "moocs_spider"
    #allowed_domains = ["https://www.coursetalk.com/subjects/data-science/courses"]
    start_urls = (
        'https://www.coursetalk.com/subjects/data-science/courses',
    )


    def parse(self, response):
        courses_xpath = '//*[@class="course-listing-card"]//a[contains(@href, "/courses/")]/@href'
        courses_url = [urljoin(response.url,relative_url)  for relative_url in response.xpath(courses_xpath).extract()]  
        for course_url in courses_url[0:3]:
            print course_url
            yield Request(url=course_url, callback=self.parse_reviews)
        next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract()
        yield Request(url=next_page_url, callback=self.parse)


    def parse_reviews(self, response):
        #print response.body
        l = ItemLoader(item=MoocsItem(), response=response)
        l.add_xpath('course_title', '//*[@class="course-header-ng__main-info__name__title"]//text()')
        l.add_xpath('course_description', '//*[@class="course-info__description"]//p/text()')
        l.add_xpath('course_instructors', '//*[@class="course-info__instructors__names"]//text()')
        l.add_xpath('course_key_concepts', '//*[@class="key-concepts__labels"]//text()')
        l.add_value('course_link', response.url)
        l.add_value('course_provider', response.url)
        l.add_xpath('course_cost', '//*[@class="course-details-panel__course-cost"]//text()')
        l.add_xpath('university', '//*[@class="course-info__school__name"]//text()[2]')
        #'//*[@class="course-info__school__name"]'
        item = l.load_item()

        for review in response.xpath('//*[@class="review-body"]'):
            r = ItemLoader(item=MoocsReviewItem(), response=response, selector=review)
            r.add_value('course_title', item['course_title'])
            r.add_xpath('review_body', './/div[@class="review-body__content"]//text()')
            r.add_xpath('course_stage', './/*[@class="review-body-info__course-stage--completed"]//text()')
            r.add_xpath('user_name', './/*[@class="review-body__username"]//text()')
            r.add_xpath('review_date', './/*[@itemprop="datePublished"]/@datetime')
            r.add_xpath('score', './/*[@class="sr-only"]//text()')

            yield r.load_item()

        yield item  

蜘蛛转到下一页,但结果未保存在输出文件中。

我猜测问题是在管道中,文件是在哪里创建的:

    next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract()

2 个答案:

答案 0 :(得分:1)

你确定蜘蛛正在正确地进行分页吗?

执行此操作时:

next_page_url =   response.xpath('//*[@class="js-course-pagination"]//a[contains(@aria-label,"Next")]/@href').extract()

extract()会返回您要传递到url的{​​{1}}参数的结果列表:

Request

但是yield Request(url=next_page_url, callback=self.parse) 必须是字符串或unicode值,因此,这样做会产生以下错误:

url

可以使用TypeError: Request url must be str or unicode, got list: 方法解决,我也会检查该值是否为None:

extract_first()

请试试这个并告诉我它是否解决了你的问题

答案 1 :(得分:0)

如果你使用-t csv,这也可以。而不是管道

scrapy crawl moocs -t csv -o moocs.csv --loglevel=INFO

这将自动在spider文件夹中创建一个文件。