蜘蛛下面没有抓取网站,我想知道我是否使用了错误的代码来抓取同一网站内的多个网页。 以下是代码TestScrpy.py:
action
上述程序的目的是从一个页面读取标题,网址,日期..并使用读取的网址,某些项目的描述应该从网址上删除。 有人可以纠正我实施逻辑来抓取同一网站中的嵌套页面。如果你能分享嵌套蜘蛛的一些工作实例,那将是很有帮助的。
答案 0 :(得分:0)
由于您要求使用spider / crawler工作示例,我分享了simple python crawler code。对我来说,爬行逻辑很简单,因此很容易理解。
答案 1 :(得分:0)
您的蜘蛛代码(至少)有两个错误:
您使用CrawlSpider和解析回调。不要这样做,因为文档说这不会起作用see the Warning。请改用常规Spider
。
您不会缩进parse
块。缩进它们。