嵌套网页的抓取蜘蛛不起作用

时间:2015-05-05 12:30:47

标签: python python-2.7 web-scraping web-crawler scrapy

蜘蛛下面没有抓取网站,我想知道我是否使用了错误的代码来抓取同一网站内的多个网页。 以下是代码TestScrpy.py:

action

上述程序的目的是从一个页面读取标题,网址,日期..并使用读取的网址,某些项目的描述应该从网址上删除。 有人可以纠正我实施逻辑来抓取同一网站中的嵌套页面。如果你能分享嵌套蜘蛛的一些工作实例,那将是很有帮助的。

2 个答案:

答案 0 :(得分:0)

由于您要求使用spider / crawler工作示例,我分享了simple python crawler code。对我来说,爬行逻辑很简单,因此很容易理解。

答案 1 :(得分:0)

您的蜘蛛代码(至少)有两个错误:

  1. 您使用CrawlSpider和解析回调。不要这样做,因为文档说这不会起作用see the Warning。请改用常规Spider

  2. 您不会缩进parse块。缩进它们。