如果我们在Scarpy中使用规则,谁来做父母?

时间:2018-07-27 09:55:38

标签: scrapy

规则=(         规则(LinkExtractor(             strict_xpaths ='// need_data',             deny = deny_urls),callback ='parse_info'),        Rule(LinkExtractor(allow = r'/ need /',deny = deny_urls),follow = True),     )

rules提取需要的网址进行抓取,对吧?
我可以在回调def中获取我们移动的网址吗?
例如
网站-needdata.com
Rule(LinkExtractor(allow=r'/need/', deny=deny_urls), follow=True),提取诸如needdata.com/need/1之类的URL,对吗?

    Rule(LinkExtractor(
        restrict_xpaths='//need_data',
        deny=deny_urls), callback='parse_info'),

从needdata.com/need/1中提取url,例如与人在一起的表。
然后parse_info进行抓取。对吧?
但是我想在parse_info中了解谁是父母?
如果needdata.com/need/1有needdata.com/people/1
我想添加到文件列parent中,数据将为needdata.com/need/1
怎么做?非常感谢你。

1 个答案:

答案 0 :(得分:0)

我们要使用

lx = LinkExtractor(allow=(r'shop-online/',))

然后

for l in lx.extract_links(response):
    # l.url - it our url

然后使用

meta={'category': category}

我找不到更好的决定。