PySpark指定镶木地板文件

时间:2018-04-10 10:59:01

标签: python apache-spark pyspark

我有以下代码来处理文本文件

textFile = sc.textFile(inputFile,numPart).map(mTorv,True)

db = textFile.
  flatMap(fmTocrv,True).
  reduceByKey(rbkGroupCols,numPart).
  mapValues(mvDodbs).
  filter(lambda (x,y): y is not None).
  persist()

我如何为镶木地板文件做同样的事情?

1 个答案:

答案 0 :(得分:0)

您可以使用sqlContext.read.parquet(将Parquet数据加载到数据框中),然后使用rdd.df将DF转换为RDD。