加快解析Twitter从json到csv(python)

时间:2017-03-10 04:10:34

标签: python json csv twitter

这是我的第一篇文章,请耐心等待。

我有一个很大的(~1GB)我通过Twitter的Streaming API收集的推文的json文件。我能够成功地将其解析为具有我需要的字段的CSV,但是,它很慢 - 即使我正在提取的少数实体(userid,lat / long,以及解析Twitter日期字符串到日期/时间)。我可以使用哪些方法来加快速度?它目前需要几个小时,我期待收集更多数据......

now d3.geo.circle()

1 个答案:

答案 0 :(得分:0)

看来我可能已经解决了这个问题。看看我实际运行的代码,看起来下面的if / else语句不正确。

for tweet in tweets:
        if tweets['geo'] and tweets['geo']['coordinates'][0]:
            lats, longs = tweets['geo']['coordinates'][:2]
        else:
            None

我正在使用其他:没有,当我应该使用传递或继续。另外,我在原始代码中删除了推文中的内部迭代。它能够解析一个大约4分钟的60mb文件。尽管如此,如果有人提出任何更快的建议,我愿意接受你的建议。

编辑:我还使用了ujson,这大大提高了从twitter加载/转储json数据的速度。