我需要Scrape Landing页面以及源自此Landing页面的一些页面。并将所有数据保存到同一个项目中。原始页面不会在自己之间连接。有什么方法可以这样做?有什么方法可以获得(加载)产生的项目并添加一些信息吗? 我能想到的是在蜘蛛本身发起一个字典,但这看起来非常糟糕。 这是一个更好理解的模式。对不起我的绘画技巧))
如果我在第1页(谷歌)创建项目并将其作为元数据发送到所有其他链接。将所有4个链接中的项目放在一起并生成包含5个网址信息的完整项目吗?
答案 0 :(得分:1)
确定。所以我想出了两个解决方案。
解决方案#1。在原始帖子中发布项目通过元发送项目到所有链接并将字典值添加到同一项目字段。说item['links_info']={}
。因此,每个页面都有自己的密钥和分配给该项目的数据。
解决方案#2。将需要访问的所有链接保存到列表中。一次关注此列表中的1个网址,然后通过meta传递其余部分。也传递项目。
第一个看起来更容易实现。