如何在Pyspark中停止或删除HiveContext?

时间:2018-01-11 16:37:41

标签: apache-spark pyspark hivecontext

我遇到以下问题:

def my_func(table, usr, psswrd):
    from pyspark import SparkContext, SQLContext, HiveContext, SparkConf

    sconf = SparkConf()
    sconf.setAppName('TEST')
    sconf.set("spark.master", "local[2]")

    sc = SparkContext(conf=sconf)
    hctx = HiveContext(sc)

    ## Initialize variables

    df = hctx.read.format("jdbc").options(url=url,
                                          user=usr,
                                          password=psswd,
                                          driver=driver,
                                          dbtable=table).load()
    pd_df = df.toPandas()

    sc.stop()
    return pd_df

这里的问题是HiveContext的持久性(即如果我执行hctx._get_hive_ctx()它返回JavaObject id = Id) 因此,如果我在同一个脚本中多次使用my_func,它将在第二次失败。 我会尝试删除当我停止SparkContext时显然没有删除的HiveContext。

由于

1 个答案:

答案 0 :(得分:0)

删除 HiveContext 是不可能的,因为某些状态在 sc.stop()之后仍然存在,这使得它在某些情况下无效。

但如果你可行的话,你可以为此做一个解决方法(谨慎!!这很危险)。每次启动/停止 sparkContext 时,都必须删除 metastore_db 。再次,看看它是否可行。代码 Java 在下面(在您的情况下,您必须在Python中修改它)。

File hiveLocalMetaStorePath = new File("metastore_db");
FileUtils.deleteDirectory(hiveLocalMetaStorePath);

您可以通过以下链接更好地理解它。

https://issues.apache.org/jira/browse/SPARK-10872

https://issues.apache.org/jira/browse/SPARK-11924