我是Scrapy的新手,我不知道如何告诉它只关注当前网址的子页面。例如,如果你在这里:
www.test.com/abc/def
然后我想要scrapy跟随:
www.test.com/abc/def/ghi
www.test.com/abc/def/jkl
www.test.com/abc/def/*
但不是:
www.test.com/abc/*
www.test.com/*
或任何其他域名。
答案 0 :(得分:0)
http://doc.scrapy.org/en/latest/topics/spiders.html#basespider-example
编写一个派生在BaseSpider上的蜘蛛。在basespider解析回调中,您需要返回需要遵循的请求。只需确保您生成的请求符合您喜欢的格式。即,来自响应使用的提取的url是当前url的子节点(这将是响应url)。并创建一个请求对象并产生它们。