无法通过pyspark创建spark数据帧

时间:2018-01-08 06:57:45

标签: windows python-3.x apache-spark pycharm pyspark-sql

我想使用PySpark创建spark数据帧,为此我在PyCharm中运行了这段代码:

from pyspark.sql import SparkSession
Spark_Session:SparkSession.builder\
.enableHiveSupport()\
.master("local"\
.getOrCreate()

但是,它会返回此错误:

  

使用Spark的默认log4j配置文件:org / apache / spark / log4j-defaults.properties   将默认日志级别设置为" WARN"。   要调整日志记录级别,请使用sc.setLogLevel(newLevel)。对于SparkR,请使用setLogLevel(newLevel)。   18/01/08 10:17:55 WARN NativeCodeLoader:无法为您的平台加载native-hadoop库...使用适用的builtin-java类   18/01/08 10:18:14 WARN ObjectStore:无法获取数据库global_temp,返回NoSuchObjectException

我该如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

你在哪里跑这个?是否安装了Hadoop?似乎Spark无法找到它:Unable to load native-hadoop library for your platform... using builtin-java classes。您需要确保提供正确的库。在Spark UI中,您可以检查上下文。

尝试:

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Spark Example") \
    .getOrCreate()

这应该有效。