我在阿拉伯语字母和英文字母上使用scrapy
。
英文字母完美无缺。
然而,阿拉伯字母显示如下:
gs300 2006 \u0644\u0643\u0632\u0633 \u062c\u064a
请帮忙吗?我正在使用scthon 0.20.2的python。
我提取数据的方式是:
site.xpath('my selector').extract()
我从cmd这样调用json操作
scrapy crawl dmoz -o items.json -t json
答案 0 :(得分:3)
字符串\u0000
是Unicode代码点。每个代表一个字符(例如\u064a
代表yeh)。要将这些字符转换为更有用的字符,您必须使用encode
and decode
来正确处理Unicode字符串。