我无法使用pyspark中的以下命令获取任何数据。能否请你帮忙。我正在使用Cloudera VM 5.8.1和Spark 1.6.0。
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
depts = sqlContext.sql("select * from departments")
for rec in depts.collect():
print(rec)
输出
java.lang.RuntimeException:本机snappy库不可用:这个版本的libhadoop是在没有snappy支持的情况下构建的。
答案 0 :(得分:0)
也许你可以尝试这个sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
根据Cloudera introduction