这是我的第一篇文章,请耐心等待。
我有一个很大的(~1GB)我通过Twitter的Streaming API收集的推文的json文件。我能够成功地将其解析为具有我需要的字段的CSV,但是,它很慢 - 即使我正在提取的少数实体(userid,lat / long,以及解析Twitter日期字符串到日期/时间)。我可以使用哪些方法来加快速度?它目前需要几个小时,我期待收集更多数据......
now d3.geo.circle()
答案 0 :(得分:0)
看来我可能已经解决了这个问题。看看我实际运行的代码,看起来下面的if / else语句不正确。
for tweet in tweets:
if tweets['geo'] and tweets['geo']['coordinates'][0]:
lats, longs = tweets['geo']['coordinates'][:2]
else:
None
我正在使用其他:没有,当我应该使用传递或继续。另外,我在原始代码中删除了推文中的内部迭代。它能够解析一个大约4分钟的60mb文件。尽管如此,如果有人提出任何更快的建议,我愿意接受你的建议。
编辑:我还使用了ujson
,这大大提高了从twitter加载/转储json数据的速度。