在运行scrapy spider时,我发现日志消息有" DEBUG:"其中有 1.调试:抓取(200)(获得http://www.example.com)(参考者:无) 2.调试:从(200 http://www.example.com)
中删除我想知道 1.对于那些"抓取的" "刮掉""意味着什么? 2.从两个ULR以上的地方返回的地方(即,在抓取变量/参数持有这些URL的页面时)
答案 0 :(得分:2)
让我尝试根据Scrapy Website上显示的Scrapy Sample Code
进行解释。我将其保存在scrapy_example.py
文件中。
from scrapy import Spider, Item, Field
class Post(Item):
title = Field()
class BlogSpider(Spider):
name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
def parse(self, response):
return [Post(title=e.extract()) for e in response.css("h2 a::text")]
使用命令scrapy runspider scrapy_example.py
执行此操作将产生以下输出:
(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)
Crawled
表示:scrapy已下载该网页。
Scraped
表示:scrapy已从该网页中提取了一些数据。
URL
在脚本中以start_urls
参数的形式给出。
您的输出必须是通过运行蜘蛛生成的。搜索定义了蜘蛛的文件,您应该能够找到定义URL的位置。