为什么rdd.toDF(schema)在Spark 2.1中工作?

时间:2017-06-17 15:00:52

标签: python apache-spark pyspark spark-dataframe rdd

我在Python中使用Spark 2.1。我可以使用toDF()方法将RDD转换为DataFrame。 (火花是之前初始化的火花会议)

rdd = spark.read.text(sys.argv[1]).rdd.map(lambda l: l[0].replace("24:00", "00:00") if "24:00" in l[0] else l[0])

fields = [StructField("datetime", StringType(), True),
          StructField("temperature", DecimalType(scale = 3), True),
          StructField("humidity", DecimalType(scale = 1), True)]

schema = StructType(fields)

df = rdd.map(lambda k: k.split(",")).map(lambda p: (p[0][5:-3], Decimal(p[5]), Decimal(p[6]))).toDF(schema)

但我无法在API文档中找到它的位置。所以请帮助我理解为什么可以为我的RDD调用toDF()。这个方法从哪里继承?

0 个答案:

没有答案