仅使用Scrapy关注子链接

时间:2013-11-03 07:29:25

标签: scrapy

我是Scrapy的新手,我不知道如何告诉它只关注当前网址的子页面。例如,如果你在这里:

www.test.com/abc/def

然后我想要scrapy跟随:

www.test.com/abc/def/ghi
www.test.com/abc/def/jkl
www.test.com/abc/def/*

但不是:

www.test.com/abc/*
www.test.com/*

或任何其他域名。

1 个答案:

答案 0 :(得分:0)

http://doc.scrapy.org/en/latest/topics/spiders.html#basespider-example

编写一个派生在BaseSpider上的蜘蛛。在basespider解析回调中,您需要返回需要遵循的请求。只需确保您生成的请求符合您喜欢的格式。即,来自响应使用的提取的url是当前url的子节点(这将是响应url)。并创建一个请求对象并产生它们。