规则=( 规则(LinkExtractor( strict_xpaths ='// need_data', deny = deny_urls),callback ='parse_info'), Rule(LinkExtractor(allow = r'/ need /',deny = deny_urls),follow = True), )
rules
提取需要的网址进行抓取,对吧?
我可以在回调def
中获取我们移动的网址吗?
例如
网站-needdata.com
Rule(LinkExtractor(allow=r'/need/', deny=deny_urls), follow=True),
提取诸如needdata.com/need/1之类的URL,对吗?
Rule(LinkExtractor(
restrict_xpaths='//need_data',
deny=deny_urls), callback='parse_info'),
从needdata.com/need/1中提取url,例如与人在一起的表。
然后parse_info
进行抓取。对吧?
但是我想在parse_info
中了解谁是父母?
如果needdata.com/need/1有needdata.com/people/1
我想添加到文件列parent
中,数据将为needdata.com/need/1
怎么做?非常感谢你。
答案 0 :(得分:0)
我们要使用
lx = LinkExtractor(allow=(r'shop-online/',))
然后
for l in lx.extract_links(response):
# l.url - it our url
然后使用
meta={'category': category}
我找不到更好的决定。