我正在尝试scrapy(1.0)来浏览所有谷歌搜索结果,我没有问题抓第一页的结果,但我不能让刮刀通过以下页数(我认为&# 39; s叫做遍历?)。
我尝试了"规则":
from scrapy.linkextractors import LinkExtractor
...
rules = (Rule(LinkExtractor(restrict_xpaths=('//div[@class="pnnext"]')), callback='parse_item', follow=True))
但我一直收到错误:
NameError: name 'Rule' is not defined
我真的需要它来关注"下一步"页面并抓取结果,直到没有更多页面。
谢谢。
答案 0 :(得分:0)
您应该从scrapy.spiders导入Rule,如下所示:
from scrapy.spiders import Rule
如果您错过任何其他导入,请检查Scrapy crawlspider example。