应用错误收集

我正在PySpark中处理约10万行的数据，而我不想将其转换为Pandas。网页点击数据包含字符串变量，并通过spark.read.orc(...)从Amazon S3存储桶中的.snappy.orc文件读取。

对于我的应用程序，转换运行太慢（由于在stackoverflow上已作了很好的解释，因此，我尝试将我的spark DataFrame降采样到十分之一-数据集很大，以至于我需要统计分析可能仍然有效。但是，我需要对5000个相似的数据集重复分析，为什么要加快关注速度。

让我惊讶的是，df.sample(false, 0.1).toPandas()的运行时间与df.toPandas()完全相同（大约180秒），因此我并没有减少我希望的运行时间。

我怀疑这可能是放入.cache()或.collect()的问题，但我找不到适合的方法。