Question

规则=（规则（LinkExtractor（ strict_xpaths ='// need_data'， deny = deny_urls），callback ='parse_info'）， Rule（LinkExtractor（allow = r'/ need /'，deny = deny_urls），follow = True），）

rules提取需要的网址进行抓取，对吧？
我可以在回调def中获取我们移动的网址吗？
例如
网站-needdata.com
Rule(LinkExtractor(allow=r'/need/', deny=deny_urls), follow=True),提取诸如needdata.com/need/1之类的URL，对吗？

    Rule(LinkExtractor(
        restrict_xpaths='//need_data',
        deny=deny_urls), callback='parse_info'),

从needdata.com/need/1中提取url，例如与人在一起的表。
然后parse_info进行抓取。对吧？
但是我想在parse_info中了解谁是父母？
如果needdata.com/need/1有needdata.com/people/1
我想添加到文件列parent中，数据将为needdata.com/need/1
怎么做？非常感谢你。

Answer 1

我们要使用

lx = LinkExtractor(allow=(r'shop-online/',))

然后

for l in lx.extract_links(response):
    # l.url - it our url

然后使用

meta={'category': category}

我找不到更好的决定。

如果我们在Scarpy中使用规则，谁来做父母？

1 个答案: