阿拉伯语字母上的Scrapy返回一些奇怪的东西

时间:2014-01-13 21:47:35

标签: python python-2.7 xpath scrapy

我在阿拉伯语字母和英文字母上使用scrapy

英文字母完美无缺。

然而,阿拉伯字母显示如下:

gs300 2006  \u0644\u0643\u0632\u0633 \u062c\u064a 

请帮忙吗?我正在使用scthon 0.20.2的python。

我提取数据的方式是:

site.xpath('my selector').extract()

我从cmd这样调用json操作

scrapy crawl dmoz -o items.json -t json

1 个答案:

答案 0 :(得分:3)

字符串\u0000是Unicode代码点。每个代表一个字符(例如\u064a代表yeh)。要将这些字符转换为更有用的字符,您必须使用encode and decode来正确处理Unicode字符串。