Question

我正在尝试scrapy（1.0）来浏览所有谷歌搜索结果，我没有问题抓第一页的结果，但我不能让刮刀通过以下页数（我认为＆＃ 39; s叫做遍历？）。

我尝试了＆＃34;规则＆＃34;：

from scrapy.linkextractors import LinkExtractor

...

rules = (Rule(LinkExtractor(restrict_xpaths=('//div[@class="pnnext"]')), callback='parse_item', follow=True))

但我一直收到错误：

NameError: name 'Rule' is not defined

我真的需要它来关注＆＃34;下一步＆＃34;页面并抓取结果，直到没有更多页面。

谢谢。

Answer 1

您应该从scrapy.spiders导入Rule，如下所示：

from scrapy.spiders import Rule

如果您错过任何其他导入，请检查Scrapy crawlspider example。

python scrapy规则通过谷歌搜索结果

1 个答案: