如何使用scrapy从多个页面将数据收集到单个数据结构中

时间:2013-02-14 08:34:20

标签: python json scrapy web-crawler

我正在尝试从网站上抓取数据。数据被构造为多个对象,每个对象都有一组数据。 例如,姓名,年龄和职业的人。

我的问题是这些数据在网站的两个层面上分开。
第一页是一个名单和年龄列表,其中包含每个人资料页面的链接。
他们的个人资料页面列出了他们的职业。

我已经在python中使用scrapy编写了一个蜘蛛,它可以从顶层收集数据并爬过多个分页。
但是,如何从内部页面收集数据,同时保持链接到内部页面适当的对象?

目前,我的输出结构为json为

   {[name='name',age='age',occupation='occupation'],
   [name='name',age='age',occupation='occupation']} etc

解析功能可以跨越这样的页面吗?

1 个答案:

答案 0 :(得分:8)

这是您需要处理的方式。当项目具有所有属性时,您需要产生/返回项目

yield Request(page1,
              callback=self.page1_data)

def page1_data(self, response):
    hxs = HtmlXPathSelector(response)
    i = TestItem()
    i['name']='name'
    i['age']='age'
    url_profile_page = 'url to the profile page'

    yield Request(url_profile_page,
                  meta={'item':i},
    callback=self.profile_page)


def profile_page(self,response):
    hxs = HtmlXPathSelector(response)
    old_item=response.request.meta['item']
    # parse other fileds
    # assign them to old_item

    yield old_item