Question

我正在使用this program，我收到的所有推文都是这样的“因为它是阿拉伯语”：

"text": "\\u0637\\u0627\\u0644\\u0628\\u0629 \\u062c\\u0633\\u0645\\u0647\\u0627 \\u062c\\u0628\\u0627\\u0631 \\u062a\\u062a\\u062e\\u062f \\u0645\\u0646 \\u0627\\u0644\\u0634\\u0627\\u0631\\u0639 \\u0648 \\u062a\\u062a\\u0646\\u0627\\u0643..\\n\\n\\u0633\\u0643\\u0633_\\u0627\\u062c\\u0646\\u0628\\u064a\\n\\u0645

我对此有疑问并得到答案here

问题是：我可以在程序中使用ensure_ascii=False，以便正确阅读阿拉伯语推文？我不知道我需要在哪个地方复制它。

Answer 1

您需要修改twitter_search.py

全部替换

json.dump(<something>,fd)

有关

json.dump(<something>,fd,ensure_ascii=False)

您还需要为utf-8替换所有<file_descriptor>

import codecs
...
...
fd = codecs.open("/tmp/lol", "w", "utf-8")

如果你使用python处理结果，另一种方法是取消ascii字符串。

s='\\u0637\\u0627\\u0644\\u0628\\u0629...'
print s.encode("utf-8").decode('unicode_escape')

Twitter搜索计划

1 个答案: