通过Pyspark从Hive读取数据

时间:2018-11-19 04:08:02

标签: python hive pyspark

我正在尝试通过Pyspark从Hive表中读取数据。我已经成功建立了Hive和spark之间的连接。我还能够看到数据库中存在的表,但是当我尝试查询该表时,出现此错误:

代码: spark.sql("select count(*) from my_table").show(truncate = False)

错误:

  

Py4JJavaError:调用o90.showString时发生错误

1 个答案:

答案 0 :(得分:0)

您可以使用SQLContext()尝试此解决方案:

from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext()
sqlC = SQLContext(sc)

sqlC.sql("select count(*) from my_table").show(truncate = False)

或尝试使用HiveContext()

from pyspark import SparkContext
from pyspark.sql import HiveContext

sc = SparkContext()
hivctx = HiveContext(sc)

hivctx.sql("select count(*) from my_table").show(truncate = False)