如何在PySpark

时间:2018-06-14 19:51:38

标签: pyspark

我看到很多对RDD的引用,但没有真正使用PySpark的数据帧。我认为像下面这样的东西会让我得到我需要的东西,但它只返回一些通用信息。

df.rdd.toDebugString()

物理解释计划有相当多的信息,但我希望有一些东西可能更清洁,如果它可用。我想保存这些信息以供参考。

我确定我没有提供足够的信息,所以请告诉我我可以提供的其他详细信息,我会这样做。

toDebugString调用输出的示例:

b'(3)MapPartitionsRDD [10] at javaToPython at NativeMethodAccessorImpl.java:0 [] \ n | MapPartitionsRDD [9]在NativeTethodAccessorImpl.java的javaToPython中:[0] MapPartitionsRDD [8]在NativeMethodAccessorImpl.java的javaToPython:0 [] \ n | FileScanRDD [7]在NativeTethodAccessorImpl.java的javaToPython:0 []'

感谢您的投入!

0 个答案:

没有答案