我正在尝试分析包含来自Twitter API的数据的JSON文件。该文件为2GB,因此加载或尝试运行任何分析需要很长时间。
所以在pyspark我加载它:
df = sqlContext.read.json('/data/statuses.log.2014-12-30.gz')
这需要大约20分钟,因为我需要查看数据集的一小部分,以便我可以快速轻松地测试我的脚本。我试过了
df = df.head(1000)
但这似乎以某种方式改变了数据集,所以当我尝试
时print(df.groupby('lang').count().sort(desc('count')).show())
我收到错误
AttributeError: 'list' object has no attribute 'groupby'
我有什么方法可以减少数据的大小,这样我就可以玩它而不必每次等待年龄?
答案 0 :(得分:0)
解决了它:
df = df.limit(1000)