pyspark:减小JSON变量的大小

时间:2017-05-09 12:37:05

标签: json pyspark

我正在尝试分析包含来自Twitter API的数据的JSON文件。该文件为2GB,因此加载或尝试运行任何分析需要很长时间。

所以在pyspark我加载它:

 df = sqlContext.read.json('/data/statuses.log.2014-12-30.gz')

这需要大约20分钟,因为我需要查看数据集的一小部分,以便我可以快速轻松地测试我的脚本。我试过了

df = df.head(1000)

但这似乎以某种方式改变了数据集,所以当我尝试

print(df.groupby('lang').count().sort(desc('count')).show())

我收到错误

AttributeError: 'list' object has no attribute 'groupby'

我有什么方法可以减少数据的大小,这样我就可以玩它而不必每次等待年龄?

1 个答案:

答案 0 :(得分:0)

解决了它:

 df = df.limit(1000)