Question

我正在尝试分析包含来自Twitter API的数据的JSON文件。该文件为2GB，因此加载或尝试运行任何分析需要很长时间。

所以在pyspark我加载它：

 df = sqlContext.read.json('/data/statuses.log.2014-12-30.gz')

这需要大约20分钟，因为我需要查看数据集的一小部分，以便我可以快速轻松地测试我的脚本。我试过了

df = df.head(1000)

但这似乎以某种方式改变了数据集，所以当我尝试

时

print(df.groupby('lang').count().sort(desc('count')).show())

我收到错误

AttributeError: 'list' object has no attribute 'groupby'

我有什么方法可以减少数据的大小，这样我就可以玩它而不必每次等待年龄？

Answer 1

解决了它：

 df = df.limit(1000)