Question

我正在尝试查询存储在Hive中的表。以下是我的QL。我想将结果存回现有的hive表中新的分区。我的最后一行代码是创建一个新表。在将输出作为文件写入时，它正在存储镶木地板文件，但我无法通过配置单元进行读取。你能帮忙吗？

我的目标表：

创建外部表dq_reslt_detl_master（
   DQ_CHECK_ID字符串，    PK_1字符串，
   PK_2 int，
   D_RUNTIME字符串）    分居（
   eap_as_of_dt字符串）    存储为镶木地板文件    LOCATION＆＃39; / data / test / dq_reslt_detl_master＆＃39;

来自pyspark import sql 从pyspark.sql导入SQLContext，Row，HiveContext 来自pyspark.sql.types import *

    sqlContext=HiveContext(sc)
    dfsql=sqlContext.sql("""select * from l1_amlmkt_mdwe.mdw_atlas_te   """)
    dfsql.registerTempTable("tmp_mdw_atlas_te")
    dfsql_=dfsql_Cache.count()
    l1=['trd_ex_event_nb']

    i_detl_all=[]
    for i in l1:
        i_summ_1_sql="select count(*) from amlmkt.k where {0} is null or {0} =''   ".format(i)
        i_detl_1_sql="select x,y,from_unixtime(unix_timestamp())as exe_time from l1_amlmkt_mdwe.mdw_atlas_te where {0} is null or {0} ='' ".format(i)
        i_detl_2=sqlContext.sql(i_detl_1_sql)
        i_summ_2=sqlContext.sql(i_summ_1_sql)
        i_detl_2.write.saveAsTable("dq_result")

使用Pyspark SQL

0 个答案: