我正在使用scrapy来抓取整个网站,但我的解析器永远不会被调用。我一直在看这个,做了一些改变,但它不起作用。也许它只需要一双新鲜的眼睛。这是我的代码:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class FirstSpider(CrawlSpider):
name = 'firstSpider'
allowed_domains = ['http://example.com']
start_urls = ['http://example.com']
rules = (Rule(LinkExtractor(), callback='parse_page', follow=True),)
def parse_page(self, response):
print('made it to the parser...')
我没有在日志中看到任何错误。该请求从example.com获得200响应。过滤现场请求'www.iana.org'。
我在Ubuntu 16.04上使用python3。
提前感谢任何提示。
答案 0 :(得分:2)
问题在于
allowed_domains = ['http://example.com']
它应该是域名而不是网址
allowed_domains = ['example.com']