我正在PySpark中处理约10万行的数据,而我不想将其转换为Pandas。网页点击数据包含字符串变量,并通过spark.read.orc(...)
从Amazon S3存储桶中的.snappy.orc文件读取。
对于我的应用程序,转换运行太慢(由于在stackoverflow上已作了很好的解释,因此,我尝试将我的spark DataFrame降采样到十分之一-数据集很大,以至于我需要统计分析可能仍然有效。但是,我需要对5000个相似的数据集重复分析,为什么要加快关注速度。
让我惊讶的是,df.sample(false, 0.1).toPandas()
的运行时间与df.toPandas()
完全相同(大约180秒),因此我并没有减少我希望的运行时间。
我怀疑这可能是放入.cache()
或.collect()
的问题,但我找不到适合的方法。