Question

我可以轻松地从以这种方式组织文章网址的网站上抓取所有新闻文章：http://samplenewsagency.com/en/news/12563。只有一个应该生成一些数字并替换为12563以找到另一条新闻。但是，对于像http://gcaptain.com这样以这种方式组织新闻的网站可以做些什么：http://gcaptain.com/chinese-aircraft-carrier-sails-hong-kong-maiden-visit/。我怎样才能找到所有新闻网址？

Answer 1

在检查给定网站gcaptain.com之后，最简单的方法似乎是基于CrawlSpider类创建蜘蛛并使用规则来指定要遵循的链接。这是最简单的例子：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class GcaptainSpider(CrawlSpider):
    name = 'gcaptain'
    allowed_domains = ['gcaptain.com']
    start_urls = ['http://gcaptain.com/']

    rules = (
        Rule(LinkExtractor(restrict_xpaths='//article//h2/a'), callback='parse_article', follow=True),
    )

    def parse_article(self, response):
        item = {}
        item['title'] = response.xpath('//article//header/h1/text()').extract_first()
        return item

它假设可以使用XPath表达式//article//h2/a找到所有新闻文章的链接，并从文章中提取标题。这个例子不会给你所有的文章，因为网站使用无限滚动机制，你必须考虑加载所有新闻。如何执行此操作可以在this Scrapinghub博客文章中阅读。

如何获取所有新闻文章网址？

1 个答案: