PySpark HiveContext错误

时间:2015-10-08 06:44:30

标签: apache-spark hive hiveql pyspark

我正在尝试使用PySpark使用以下命令刷新表分区。我可以发出任何其他SQL命令,但MSCK REPAIR TABLE导致我出现问题

代码:

conf = SparkConf().setAppName("PythonHiveExample")\
                  .set("spark.executor.memory", "3g")\
                  .set("spark.driver.memory", "3g")\
                  .set("spark.driver.cores", "2")\
                  .set("spark.storage.memoryFraction", "0.4")
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
sqlContext.sql("MSCK REPAIR TABLE testdatabase.testtable;")

错误:

  

文件“/usr/hdp/2.3.0.0-2557/spark/python/pyspark/sql/context.py”,第488行,在sql中                       返回DataFrame(self._ssql_ctx.sql(sqlQuery),self)                     在电话中输入文件“/usr/hdp/2.3.0.0-2557/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py”,第538行                     在get_return_value中输入文件“/usr/hdp/2.3.0.0-2557/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py”,第300行                   py4j.protocol.Py4JJavaError:调用o43.sql时发生错误。                   :org.apache.spark.sql.AnalysisException:';'缺少EOF在'10'附近;第1行pos 41

NewError:

            py4j.protocol.Py4JJavaError: An error occurred while calling o43.sql.
            : org.apache.spark.sql.AnalysisException: missing EOF at 'MSCK' near 'testdatabase'; line 1 pos 17
                    at org.apache.spark.sql.hive.HiveQl$.createPlan(HiveQl.scala:254)
                    at org.apache.spark.sql.hive.ExtendedHiveQlParser$$anonfun$hiveQl$1.apply(ExtendedHiveQlParser.scala:41)
                    at org.apache.spark.sql.hive.ExtendedHiveQlParser$$anonfun$hiveQl$1.apply(ExtendedHiveQlParser.scala:40)
                    at scala.util.parsing.combinator.Parsers$Success.map(Parsers.scala:136)
                    at scala.util.parsing.combinator.Parsers$Success.map(Parsers.scala:135)
                    at scala.util.parsing.combinator.Parsers$Parser$$anonfun$map$1.apply(Parsers.scala:242)
                    at scala.util.parsing.combinator.Parsers$Parser$$anonfun$map$1.apply(Parsers.scala:242)

2 个答案:

答案 0 :(得分:0)

我目前正在使用Spark 1.6,以下声明正在帮我更新带有hive Metastore的分区。

sqlContext.sql("alter table schema.table_name add partition (key = value )")

答案 1 :(得分:0)

您可以尝试以下命令:

ALTER TABLE table_name ADD PARTITION