我正在尝试将实木复合地板文件加载到hdfs文件表中。以下是我的顺序。首先从创建我的表开始。
Array
(
[0] => D-CGRS_SS-2000_BLUE.jpg
[1] => D-CGRS_SS-2000_GREEN.jpg
[2] => D-CGRS_SS-2000_LIME.jpg
[3] => D-CGRS_SS-2000_NAVY.jpg
[4] => D-CGRS_SS-2000_RED.jpg
[5] => D-CGRS_SS-2000_WHITE.jpg
[6] => D-CGRS_SS-2000_YELLOW.jpg
)
然后,我加载我的csv文件并确保架构与我创建的表相同:
from pyspark.sql import SparkSession
#from pyspark.sql import SQLContext
spark = (SparkSession \
.builder \
.appName("Test") \
.getOrCreate())
spark.sql("create external table if not exists table1 ( _c0 string, _c1 string, _c2 string, _c3 string, _c4 string, _c5 string, _c6 string) STORED AS parquet location 'hdfs://my_data/hive/db1/table1'")
#table created successfully
以下也是实木复合地板文件的内容:
然后将其写入与上面创建的表相同的路径:
dp=spark.read.load("/user/path/test.parquet", format="parquet").printSchema()
这成功运行,但是当我从table1中选择*时,没有显示任何值(请参见下文):
有人知道为什么没有插入值或什么都不显示吗?是的,镶木地板文件中有数据。