Question

我无法使用pyspark中的以下命令获取任何数据。能否请你帮忙。我正在使用Cloudera VM 5.8.1和Spark 1.6.0。

from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
depts = sqlContext.sql("select * from departments")
for rec in depts.collect():
  print(rec)

输出

java.lang.RuntimeException：本机snappy库不可用：这个版本的libhadoop是在没有snappy支持的情况下构建的。

Answer 1

也许你可以尝试这个sqlContext.setConf("spark.sql.parquet.compression.codec","snappy") 根据Cloudera introduction

java.lang.RuntimeException：本机snappy库不可用：这个版本的libhadoop是在没有snappy支持的情况下构建的

1 个答案: