尝试阅读Scrapy的代码。单词 scaper , crawler 和 spider 令人困惑。例如
scrapy.core.scraper
scrapy.crawler
scrapy.spiders
任何人都可以在 Scrapy 的背景下解释这些术语的含义和差异吗?提前谢谢。
答案 0 :(得分:5)
抓取工具(scrapy.crawler
)是Scrapy API的主要入口点。它提供了对所有Scrapy核心组件的访问,并且它用于将扩展功能挂钩到Scrapy中。
Scraper (scrapy.core.scraper
)组件负责解析响应并从中提取信息。它是从引擎运行的,它用来运行你的蜘蛛。
scrapy.spiders
是一个包含基本Spider
实现(用于编写蜘蛛)的模块,以及一些开箱即用的常见蜘蛛(如CrawlSpider)用于基于规则集的爬网,用于基于站点地图的爬网的SitemapSpider,或用于爬网XML Feed的XMLFeedSpider)。
官方文档页面提供了更多信息:
http://doc.scrapy.org/en/latest/topics/spiders.html?highlight=crawlspider#spiders
http://doc.scrapy.org/en/latest/topics/api.html?highlight=scrapy.crawler#module-scrapy.crawler