即使在实木复合地板文件中有数据,从实木复合地板文件创建的配置单元表也不会显示任何数据

时间:2020-04-02 10:53:10

标签: dataframe apache-spark hive parquet hue

我有一个包含数据的镶木地板文件位置。 使用HUE,我如下创建了一个配置单元表

create external table parq_test ( 
  A int,
  B int,
  C int
  )
STORED AS PARQUET
LOCATION '/data/parq_test';

我说

select * from parq_test; 

它返回0行。

我尝试过

MSCK REPAIR TABLE parq_test;

仍然没有运气

下面我尝试过,但是我的HUE控制台不支持

ALTER TABLE parq_test RECOVER PARTITIONS;

事实上,我在笔记本中进行测试,镶木地板中有可用数据 文件。那么,这里有什么问题,为什么我的表不显示任何数据?

1 个答案:

答案 0 :(得分:1)

镶木地板文件和配置单元表中的列名称应匹配,然后只有您可以使用您的Hive查询查看特定列的数据。如果没有,您将看到这些列的行具有NULL值。

让我向您展示它是如何逐步编写的:

1)创建带有列(id,名称)的Hive表

0: jdbc:hive2://localhost:10000> CREATE EXTERNAL TABLE kmdb.test_ext_parquet (id STRING, name STRING) STORED AS PARQUET LOCATION '/km_hadoop/data/test_ext_parquet';
No rows affected (0.178 seconds)
0: jdbc:hive2://localhost:10000> SELECT * FROM kmdb.test_ext_parquet;
+----------------------+------------------------+--+
| test_ext_parquet.id  | test_ext_parquet.name  |
+----------------------+------------------------+--+
+----------------------+------------------------+--+
No rows selected (0.132 seconds)

2)编写一个Parquet文件:我创建一个具有相同列名(id,name)的spark数据帧并编写一个parque文件。

>>> dataDF=spark.createDataFrame([("1", "aaa"), ("2", "bbb")]) \
...  .toDF("id", "name")
>>> 
>>> dataDF.show(200, False)
+---+----+                                                                      
|id |name|
+---+----+
|1  |aaa |
|2  |bbb |
+---+----+

>>> dataDF.coalesce(1).write.mode('append').parquet("/km_hadoop/data/test_ext_parquet")
>>>

3)验证数据

0: jdbc:hive2://localhost:10000> SELECT * FROM kmdb.test_ext_parquet;
+----------------------+------------------------+--+
| test_ext_parquet.id  | test_ext_parquet.name  |
+----------------------+------------------------+--+
| 1                    | aaa                    |
| 2                    | bbb                    |
+----------------------+------------------------+--+
2 rows selected (0.219 seconds)
0: jdbc:hive2://localhost:10000>

4)现在使用Spark数据框写入具有不同列名(id2,name2)的镶木地板文件

>>> dataDF2=spark.createDataFrame([("101", "ggg"), ("102", "hhh")]) \
...  .toDF("id2", "name2")
>>> 
>>> dataDF2.show(200, False)
+---+-----+
|id2|name2|
+---+-----+
|101|ggg  |
|102|hhh  |
+---+-----+

>>> 
>>> dataDF2.coalesce(1).write.mode('append').parquet("/km_hadoop/data/test_ext_parquet")
>>>

5)让我们的查询表查看数据,查看列的NULL值。

0: jdbc:hive2://localhost:10000> SELECT * FROM kmdb.test_ext_parquet;
+----------------------+------------------------+--+
| test_ext_parquet.id  | test_ext_parquet.name  |
+----------------------+------------------------+--+
| 1                    | aaa                    |
| NULL                 | NULL                   |
| 2                    | bbb                    |
| NULL                 | NULL                   |
+----------------------+------------------------+--+
4 rows selected (0.256 seconds)
0: jdbc:hive2://localhost:10000>

6)现在,我将使用仅一个正确的列名(id)编写镶木地板文件,而另外一个不存在(名称2)。

>>> dataDF3=spark.createDataFrame([("201", "xxx"), ("202", "yyy")]) \
...  .toDF("id", "name2")
>>> 
>>> dataDF3.show(200, False)
+---+-----+
|id |name2|
+---+-----+
|201|xxx  |
|202|yyy  |
+---+-----+

>>> 
>>> dataDF3.coalesce(1).write.mode('append').parquet("/km_hadoop/data/test_ext_parquet")
>>>

7)让我们的查询表查看数据,查看不正确列的NULL值。

0: jdbc:hive2://localhost:10000> SELECT * FROM kmdb.test_ext_parquet;
+----------------------+------------------------+--+
| test_ext_parquet.id  | test_ext_parquet.name  |
+----------------------+------------------------+--+
| NULL                 | NULL                   |
| NULL                 | NULL                   |
| 1                    | aaa                    |
| 2                    | bbb                    |
| 201                  | NULL                   |
| 202                  | NULL                   |
+----------------------+------------------------+--+
6 rows selected (0.225 seconds)
0: jdbc:hive2://localhost:10000>

8)现在我们如何读取“隐藏”数据?只需创建一个包含所有列的表即可。

0: jdbc:hive2://localhost:10000> CREATE EXTERNAL TABLE kmdb.test_ext_parquet_all_columns (id STRING, name STRING,id2 STRING, name2 STRING)
. . . . . . . . . . . . . . . .>  STORED AS PARQUET LOCATION '/km_hadoop/data/test_ext_parquet';
No rows affected (0.097 seconds)
0: jdbc:hive2://localhost:10000> SELECT * FROM  kmdb.test_ext_parquet_all_columns;
+----------------------------------+------------------------------------+-----------------------------------+-------------------------------------+--+
| test_ext_parquet_all_columns.id  | test_ext_parquet_all_columns.name  | test_ext_parquet_all_columns.id2  | test_ext_parquet_all_columns.name2  |
+----------------------------------+------------------------------------+-----------------------------------+-------------------------------------+--+
| NULL                             | NULL                               | 101                               | ggg                                 |
| NULL                             | NULL                               | 102                               | hhh                                 |
| 1                                | aaa                                | NULL                              | NULL                                |
| 2                                | bbb                                | NULL                              | NULL                                |
| 201                              | NULL                               | NULL                              | xxx                                 |
| 202                              | NULL                               | NULL                              | yyy                                 |
+----------------------------------+------------------------------------+-----------------------------------+-------------------------------------+--+
6 rows selected (0.176 seconds)
0: jdbc:hive2://localhost:10000>

现在,我怎么知道镶木地板文件中所有的列都存在???我可以通过使用Spark读取实木复合地板文件来完成:

>>> spark.read.option("mergeSchema", "true").parquet("/km_hadoop/data/test_ext_parquet").show(10,False)
+----+-----+----+----+
|id2 |name2|id  |name|
+----+-----+----+----+
|101 |ggg  |null|null|
|102 |hhh  |null|null|
|null|xxx  |201 |null|
|null|yyy  |202 |null|
|null|null |1   |aaa |
|null|null |2   |bbb |
+----+-----+----+----+

>>> 

我希望这对您有所帮助。