Twitter数据解码

时间:2015-03-25 23:02:15

标签: python-3.x twitter unicode encoding tweepy

我有一个从Twitter获取数据的简单代码(使用Tweepy) 并将其发送到文本文件。

class StdOutListener(StreamListener):

    def on_data(self, data):
        with codecs.open("twitter_data.txt", "a", encoding="utf-8") as myfile:
            myfile.write(data)
        return True

    def on_error(self, status):
        print (status)

if __name__ == '__main__':
    l = StdOutListener()
    auth = OAuthHandler(consumer_key, consumer_secret)
    auth.set_access_token(access_token, access_token_secret)
    stream = Stream(auth, l)

    stream.filter(languages=["iw","he"], track=["SomeHebrewWord"]) # etc

好的,现在我从twitter流式传输数据到我的file.txt。

例如,一行包含以下文本(希伯来语单词):

"text":"\u05d2\u05dd \u05d0\u05e0\u05d9 \u05d7\u05d5\u05e9\u05d1"

问题出在" twitter_data.txt"文件。我试图将希伯来语格式的文本发送到我的" twitter_data.txt"文件,我不知道该怎么做。

如果我只是在我的IDLE python窗口中打印它 - 就像这样:

print(u'"text":"\u05d2\u05dd \u05d0\u05e0\u05d9 \u05d7\u05d5\u05e9\u05d1"')

它有效,我可以看到希伯来语。

那我怎么能解码"它希伯来语并将作为希伯来语发送到文本文件? (现在,twitter_data.txt文件包含" \ u05d2 \ u05dd"格式的数据..)

感谢。

0 个答案:

没有答案