如何在标题页面中抓取标题?

时间:2019-04-13 08:58:08

标签: python-3.x scrapy

我试图在标题页面中刮掉标题,但由于对操作方法的不正确理解,我尝试了很多,但失败了。我是初学者。所以我需要帮助。

await shardingManager.broadcastEval(`this.guilds.get('352896116812939264').roles`);

2 个答案:

答案 0 :(得分:0)

您能说出您需要哪种输出吗?从您的帖子中还不清楚。 查看此示例,您可以在这里进行

  1. 获取一些数据;
  2. 将请求保存到另一页并保存日期;
  3. 最终数据。

希望它会对您有所帮助。

import scrapy


class DmozSpiderSpider(scrapy.Spider):
    name = 'Dmoz'
    start_urls = ['http://dmoz-odp.org/']
    nav_page = 'http://dmoz-odp.org/docs/en/about.html'

    def parse(self, response):
        # collect data on first page
        items = {
            'Navbar': response.css('#main-nav a::text').extract(),
            'Category_names': response.css('.top-cat a::text').extract(),
            'Subcategories': response.css('.sub-cat a::text').extract(),
            'Nav_page': self.nav_page,
        }
        # save and call request to another page
        yield response.follow(self.nav_page, self.parse_nav, meta={'items': items})

    def parse_nav(self, response):
        # do you stuff on second page
        items = response.meta['items']
        items['something'] = 'something'  # add your logics
        yield items

或为单独的页面进行单独的登录:

import scrapy


class DmozSpiderSpider(scrapy.Spider):
    name = 'Dmoz'

    def start_requests(self):
        reqs = (
            ('http://dmoz-odp.org/', self.parse_main),
            ('http://dmoz-odp.org/docs/en/about.html', self.parse_nav),
        )
        for link, callback in reqs:
            yield scrapy.Request(link, callback)

    def parse_main(self, response):
        items = {
            'Navbar': response.css('#main-nav a::text').extract(),
            'Category_names': response.css('.top-cat a::text').extract(),
            'Subcategories': response.css('.sub-cat a::text').extract(),
        }
        yield items

    def parse_nav(self, response):
        items = {
            'something': 'something',   # add your logics
        }
        yield items

答案 1 :(得分:0)

要解析其他HTML页面,您需要产生一个Request对象,并将目标URL作为其构造函数的第一个参数,并在您传递给的构造函数的Spider方法中进行解析该Request对象作为callback参数。

我强烈建议您完成Scrapy tutorialFollowing links部分介绍了您要实现的目标。