(Py)Spark:df.sample(0.1)不会影响df.toPandas()的运行时

时间:2019-02-06 13:45:16

标签: python pandas apache-spark

我正在PySpark中处理约10万行的数据,而我不想将其转换为Pandas。网页点击数据包含字符串变量,并通过spark.read.orc(...)从Amazon S3存储桶中的.snappy.orc文件读取。

对于我的应用程序,转换运行太慢(由于在stackoverflow上已作了很好的解释,因此,我尝试将我的spark DataFrame降采样到十分之一-数据集很大,以至于我需要统计分析可能仍然有效。但是,我需要对5000个相似的数据集重复分析,为什么要加快关注速度。

让我惊讶的是,df.sample(false, 0.1).toPandas()的运行时间与df.toPandas()完全相同(大约180秒),因此我并没有减少我希望的运行时间。

我怀疑这可能是放入.cache().collect()的问题,但我找不到适合的方法。

0 个答案:

没有答案