python scrapy规则通过谷歌搜索结果

时间:2015-07-11 10:09:30

标签: python python-2.7 xpath web-scraping scrapy

我正在尝试scrapy(1.0)来浏览所有谷歌搜索结果,我没有问题抓第一页的结果,但我不能让刮刀通过以下页数(我认为&# 39; s叫做遍历?)。

我尝试了"规则":

from scrapy.linkextractors import LinkExtractor

...

rules = (Rule(LinkExtractor(restrict_xpaths=('//div[@class="pnnext"]')), callback='parse_item', follow=True))

但我一直收到错误:

NameError: name 'Rule' is not defined

我真的需要它来关注"下一步"页面并抓取结果,直到没有更多页面。

谢谢。

1 个答案:

答案 0 :(得分:0)

您应该从scrapy.spiders导入Rule,如下所示:

from scrapy.spiders import Rule

如果您错过任何其他导入,请检查Scrapy crawlspider example