应用错误收集

如何在没有架构的情况下查询数据帧和rdd

时间：2019-07-17 02:31:30

标签： pyspark

如何将csv文件without any schema加载到spark rdd和数据框并分配架构

我有一个文件，其中包含这样的数据

AA,19970101,47.82,47.82,47.82,47.82,0

架构应为

stockname,date,highprice,lowprice,openprice,closeprice,volume

1 个答案:

答案 0 :(得分：0)

可能首先可以为输入数据创建rdd，并且可以在rdd之上使用架构创建数据框。

from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import *

rdd = sc.textFile("//path/to/textfile/file.txt")

schema = StructType([
            StructField("id", IntegerType(), True),
            StructField("created_at", TimestampType(), True),
            StructField("updated_at", StringType(), True)
            ])

df = sqlContext.createDataFrame(rdd, schema)