Question

我正在尝试将实木复合地板文件加载到hdfs文件表中。以下是我的顺序。首先从创建我的表开始。

Array
(
    [0] => D-CGRS_SS-2000_BLUE.jpg
    [1] => D-CGRS_SS-2000_GREEN.jpg
    [2] => D-CGRS_SS-2000_LIME.jpg
    [3] => D-CGRS_SS-2000_NAVY.jpg
    [4] => D-CGRS_SS-2000_RED.jpg
    [5] => D-CGRS_SS-2000_WHITE.jpg
    [6] => D-CGRS_SS-2000_YELLOW.jpg
)

然后，我加载我的csv文件并确保架构与我创建的表相同：

from pyspark.sql import SparkSession
    #from pyspark.sql import SQLContext
spark = (SparkSession \
        .builder \
        .appName("Test") \
        .getOrCreate())

spark.sql("create  external table if not exists table1 ( _c0 string, _c1 string, _c2 string, _c3 string, _c4 string, _c5 string, _c6 string) STORED AS parquet location 'hdfs://my_data/hive/db1/table1'") 

#table created successfully

以下也是实木复合地板文件的内容：

然后将其写入与上面创建的表相同的路径：

dp=spark.read.load("/user/path/test.parquet", format="parquet").printSchema()

这成功运行，但是当我从table1中选择*时，没有显示任何值（请参见下文）：

有人知道为什么没有插入值或什么都不显示吗？是的，镶木地板文件中有数据。

如何将HDFS Parquet文件加载到HDFS表

0 个答案: