如何将HDFS Parquet文件加载到HDFS表

时间:2019-08-08 21:22:45

标签: apache-spark hive pyspark hdfs

我正在尝试将实木复合地板文件加载到hdfs文件表中。以下是我的顺序。首先从创建我的表开始。

Array
(
    [0] => D-CGRS_SS-2000_BLUE.jpg
    [1] => D-CGRS_SS-2000_GREEN.jpg
    [2] => D-CGRS_SS-2000_LIME.jpg
    [3] => D-CGRS_SS-2000_NAVY.jpg
    [4] => D-CGRS_SS-2000_RED.jpg
    [5] => D-CGRS_SS-2000_WHITE.jpg
    [6] => D-CGRS_SS-2000_YELLOW.jpg
)

然后,我加载我的csv文件并确保架构与我创建的表相同:

from pyspark.sql import SparkSession
    #from pyspark.sql import SQLContext
spark = (SparkSession \
        .builder \
        .appName("Test") \
        .getOrCreate())

spark.sql("create  external table if not exists table1 ( _c0 string, _c1 string, _c2 string, _c3 string, _c4 string, _c5 string, _c6 string) STORED AS parquet location 'hdfs://my_data/hive/db1/table1'") 

#table created successfully

enter image description here

以下也是实木复合地板文件的内容:

enter image description here

enter image description here

然后将其写入与上面创建的表相同的路径:

dp=spark.read.load("/user/path/test.parquet", format="parquet").printSchema()

这成功运行,但是当我从table1中选择*时,没有显示任何值(请参见下文): enter image description here

有人知道为什么没有插入值或什么都不显示吗?是的,镶木地板文件中有数据。

0 个答案:

没有答案