Question

我正在学习scrapy文档（https://doc.scrapy.org/en/1.3/intro/tutorial.html），但是有一段代码，我的计算机产生不同的结果。

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('span small::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

正确的输出应该是：

{“text”：“”我们创造的世界是我们思考的过程。如果不改变我们的想法就无法改变。“”，“作者”：“爱因斯坦”，“标签”：[“改变”，“深思”，“思考”，“世界”]}

但我的输出（在json中）是：

{“text”：“\ u201c我们创造的世界是我们思考的过程。如果不改变我们的思维就不能改变。\ u201d”，“作者”：“阿尔伯特爱因斯坦”，“标签”： [“改变”，“深思”，“思考”，“世界”]}

当我使用scrapy shell或尝试输出json文件时会发生这种情况。但如果我选择输出到csv，它会正常工作。有人有解决方案吗？

环境：Ubuntu，python 3.5

Answer 1

首先，它可以编码，大多数将加载它的程序会根据需要对其进行解码。

如果您坚持以其他方式对JSON输出进行编码，则可以使用Scrapy的FEED_EXPORT_ENCODING设置as stated here。

我猜您要找的是FEED_EXPORT_ENCODING = 'utf-8'（在您的settings.py文件中）

在抓取html时混合扩展的ascii和普通字符串

1 个答案: