我正在使用this program,我收到的所有推文都是这样的“因为它是阿拉伯语”:
"text": "\\u0637\\u0627\\u0644\\u0628\\u0629 \\u062c\\u0633\\u0645\\u0647\\u0627 \\u062c\\u0628\\u0627\\u0631 \\u062a\\u062a\\u062e\\u062f \\u0645\\u0646 \\u0627\\u0644\\u0634\\u0627\\u0631\\u0639 \\u0648 \\u062a\\u062a\\u0646\\u0627\\u0643..\\n\\n\\u0633\\u0643\\u0633_\\u0627\\u062c\\u0646\\u0628\\u064a\\n\\u0645
我对此有疑问并得到答案here
问题是:我可以在程序中使用ensure_ascii=False
,以便正确阅读阿拉伯语推文?我不知道我需要在哪个地方复制它。
答案 0 :(得分:0)
您需要修改twitter_search.py
全部替换
json.dump(<something>,fd)
有关
json.dump(<something>,fd,ensure_ascii=False)
您还需要为utf-8替换所有<file_descriptor>
import codecs
...
...
fd = codecs.open("/tmp/lol", "w", "utf-8")
如果你使用python处理结果,另一种方法是取消ascii字符串。
s='\\u0637\\u0627\\u0644\\u0628\\u0629...'
print s.encode("utf-8").decode('unicode_escape')