使用Pyspark SQL

时间:2016-06-30 10:39:39

标签: apache-spark pyspark apache-spark-sql spark-dataframe

我正在尝试查询存储在Hive中的表。以下是我的QL。我想将结果存回现有的hive表中新的分区。我的最后一行代码是创建一个新表。在将输出作为文件写入时,它正在存储镶木地板文件,但我无法通过配置单元进行读取。你能帮忙吗?

我的目标表:

创建外部表dq_reslt_detl_master(
   DQ_CHECK_ID字符串,    PK_1字符串,
   PK_2 int,
   D_RUNTIME字符串)    分居(
   eap_as_of_dt字符串)    存储为镶木地板文件    LOCATION' / data / test / dq_reslt_detl_master'

来自pyspark import sql     从pyspark.sql导入SQLContext,Row,HiveContext     来自pyspark.sql.types import *

    sqlContext=HiveContext(sc)
    dfsql=sqlContext.sql("""select * from l1_amlmkt_mdwe.mdw_atlas_te   """)
    dfsql.registerTempTable("tmp_mdw_atlas_te")
    dfsql_=dfsql_Cache.count()
    l1=['trd_ex_event_nb']

    i_detl_all=[]
    for i in l1:
        i_summ_1_sql="select count(*) from amlmkt.k where {0} is null or {0} =''   ".format(i)
        i_detl_1_sql="select x,y,from_unixtime(unix_timestamp())as exe_time from l1_amlmkt_mdwe.mdw_atlas_te where {0} is null or {0} ='' ".format(i)
        i_detl_2=sqlContext.sql(i_detl_1_sql)
        i_summ_2=sqlContext.sql(i_summ_1_sql)
        i_detl_2.write.saveAsTable("dq_result")

0 个答案:

没有答案