Question

我在阿拉伯语字母和英文字母上使用scrapy。

英文字母完美无缺。

然而，阿拉伯字母显示如下：

gs300 2006  \u0644\u0643\u0632\u0633 \u062c\u064a

请帮忙吗？我正在使用scthon 0.20.2的python。

我提取数据的方式是：

site.xpath('my selector').extract()

我从cmd这样调用json操作

scrapy crawl dmoz -o items.json -t json

Answer 1

字符串\u0000是Unicode代码点。每个代表一个字符（例如\u064a代表yeh）。要将这些字符转换为更有用的字符，您必须使用encode and decode来正确处理Unicode字符串。