如何使用其架构从Pyspark数据框创建配置单元表?

时间:2020-06-15 14:22:11

标签: python pyspark

我使用以下代码创建了数据框:

  import pyspark
    from pyspark.sql import functions as F

    sc = pyspark.SparkContext()
    spark = pyspark.sql.SparkSession(sc)

    data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)]
    columns = ['Column1', 'Column2', 'Column3']
    data = spark.createDataFrame(data, columns)
    data.printSchema()
 root
 |-- Column1: string (nullable = true)
 |-- Column2: string (nullable = true)
 |-- Column3: long (nullable = true)

我想在pyspark中使用pySpark数据框的架构创建配置单元表吗?这里我提到了示例列,但是我的数据框中有很多列,那么有没有一种方法可以自动生成这样的查询?

1 个答案:

答案 0 :(得分:0)

我相信您的表创建是一次活动,在这种情况下,spark和Hive表之间的数据类型可能会有所不同。

如果有很多列,这是最好的选择。

print(data.schema)

这样您将获得所有架构