我使用以下代码创建了数据框:
import pyspark
from pyspark.sql import functions as F
sc = pyspark.SparkContext()
spark = pyspark.sql.SparkSession(sc)
data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)]
columns = ['Column1', 'Column2', 'Column3']
data = spark.createDataFrame(data, columns)
data.printSchema()
root
|-- Column1: string (nullable = true)
|-- Column2: string (nullable = true)
|-- Column3: long (nullable = true)
我想在pyspark中使用pySpark数据框的架构创建配置单元表吗?这里我提到了示例列,但是我的数据框中有很多列,那么有没有一种方法可以自动生成这样的查询?
答案 0 :(得分:0)
我相信您的表创建是一次活动,在这种情况下,spark和Hive表之间的数据类型可能会有所不同。
如果有很多列,这是最好的选择。
print(data.schema)
这样您将获得所有架构