Question

我有3个具有相同结构的蜂巢表。

``` drop table default.test1; 创建外部表Activity（
default.test1字符串，
c1字符串，
c2字符串）
行格式SERDER
＆＃39; org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe＆＃39;
作为INPUTFORMAT存储＆＃39; org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat＆＃39;
OUTPUTFORMAT
＆＃39; org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat＆＃39;
LOCATION
＆＃39; S3：// s3_bucket的/ dev的/ dev / testspark / TEST1 /＆＃39 ;;

drop table default.test2; 创建外部表c3（
default.test2字符串，
c1字符串，
c2字符串）
行格式SERDER
＆＃39; org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe＆＃39;
作为INPUTFORMAT存储＆＃39; org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat＆＃39;
OUTPUTFORMAT
＆＃39; org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat＆＃39;
LOCATION
＆＃39; S3：// s3_bucket的/ dev的/ dev / testspark / TEST2 /＆＃39 ;;

drop table default.test3; 创建外部表c3（
default.test3字符串，
c1字符串，
c2字符串）
行格式SERDER
＆＃39; org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe＆＃39;
作为INPUTFORMAT存储＆＃39; org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat＆＃39;
OUTPUTFORMAT
＆＃39; org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat＆＃39;
LOCATION
＆＃39; S3：// s3_bucket的/ dev的/ dev / testspark / TEST3 /＆＃39 ;;

hive＆gt;插入default.test1值（＆＃34; a＆＃34;，＆＃34; b＆＃34;，＆＃34; c＆＃34;）; hive＆gt;插入default.test2值（＆＃34; d＆＃34;，＆＃34; e＆＃34;，＆＃34; f＆＃34;）; hive＆gt;插入覆盖表default.test3 select * from default.test1 UNION ALL select * from default.test2;```

在我使用UNION ALL test1和test2加载数据之后。 test3表s3路径在子文件夹中有如下所示的数据。 PRE 1 /
PRE 2 /

当我从hive查询test3表时，它将给出插入的数据的结果。但是当我在火花中查询同样的东西时。这是零计数。 pyspark shell：

sqlContext.sql（＆＃34; select * from default.test3＆＃34;）。count（）       0

如何解决此问题？

Answer 1

在运行sqlContext.sql之前尝试设置以下属性

sqlContext.setConf（＆＃34; mapred.input.dir.recursive＆＃34;＆＃34;真＆＃34）; sqlContext.setConf（＆＃34; mapreduce.input.fileinputformat.input.dir.recursive＆＃34;＆＃34;真＆＃34）;

Answer 2

要完成这项工作，还需要设置一个属性以及上面的属性。

spark.conf.set("mapred.input.dir.recursive","true") 
spark.conf.set("mapreduce.input.fileinputformat.input.dir.recursive","true")
spark.conf.set("spark.sql.hive.convertMetastoreParquet", "false")

由于S3中的_1和_2子文件夹，Spark无法读取hive表

2 个答案: