Question

这是我的第一篇文章，请耐心等待。

我有一个很大的（~1GB）我通过Twitter的Streaming API收集的推文的json文件。我能够成功地将其解析为具有我需要的字段的CSV，但是，它很慢 - 即使我正在提取的少数实体（userid，lat / long，以及解析Twitter日期字符串到日期/时间）。我可以使用哪些方法来加快速度？它目前需要几个小时，我期待收集更多数据......

now d3.geo.circle()

Answer 1

看来我可能已经解决了这个问题。看看我实际运行的代码，看起来下面的if / else语句不正确。

for tweet in tweets:
        if tweets['geo'] and tweets['geo']['coordinates'][0]:
            lats, longs = tweets['geo']['coordinates'][:2]
        else:
            None

我正在使用其他：没有，当我应该使用传递或继续。另外，我在原始代码中删除了推文中的内部迭代。它能够解析一个大约4分钟的60mb文件。尽管如此，如果有人提出任何更快的建议，我愿意接受你的建议。

编辑：我还使用了ujson，这大大提高了从twitter加载/转储json数据的速度。

加快解析Twitter从json到csv（python）

1 个答案: