Question

在运行scrapy spider时，我发现日志消息有＆＃34; DEBUG：＆＃34;其中有 1.调试：抓取（200）（获得http://www.example.com）（参考者：无） 2.调试：从（200 http://www.example.com）

中删除

我想知道 1.对于那些＆＃34;抓取的＆＃34; ＆＃34;刮掉＆＃34;＆＃34;意味着什么？ 2.从两个ULR以上的地方返回的地方（即，在抓取变量/参数持有这些URL的页面时）

Answer 1

让我尝试根据Scrapy Website上显示的Scrapy Sample Code进行解释。我将其保存在scrapy_example.py文件中。

from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

使用命令scrapy runspider scrapy_example.py执行此操作将产生以下输出：

(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)

Crawled表示：scrapy已下载该网页。

Scraped表示：scrapy已从该网页中提取了一些数据。

URL在脚本中以start_urls参数的形式给出。

您的输出必须是通过运行蜘蛛生成的。搜索定义了蜘蛛的文件，您应该能够找到定义URL的位置。

运行蜘蛛时scrapy如何在日志中写入？

1 个答案: