我一直在stackoverflow和其他地方搜索我现在看到的错误,并尝试了一些“答案”,但在这里没有用(我将继续搜索并在此处更新):
我有一个新的Ubuntu,并安装了Anaconda3,并安装了Spark 2:
Anaconda3:/ home / rxie / anaconda Spark2:/ home / rxie / Downloads / spark
我能够启动Jupyter Notebook,但是无法创建SparkSession:
from pyspark.conf import SparkConf
ModuleNotFoundError跟踪(最近一次调用) 最后)在() ---->从pyspark.conf中的1导入SparkConf
ModuleNotFoundError:没有名为“ pyspark”的模块
这是我在.bashrc中的环境:
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
export SPARK_HOME=/home/rxie/spark/
export SBT_HOME=/usr/share/sbt/bin/sbt-launch.jar
export SCALA_HOME=/usr/local/src/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
export PATH=$SPARK_HOME/bin:$PATH
export PATH=$PATH:$SBT_HOME/bin:$SPARK_HOME/bin
# added by Anaconda3 installer
export PATH="/home/rxie/anaconda3/bin:$PATH"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
在jupyter笔记本中导入SparkConf有什么问题?
非常感谢任何人能照亮我,非常感谢。
答案 0 :(得分:0)
最终PATH为以下内容时,笔记本将按预期开始工作:
$ echo $PATH
/usr/lib64/qt-.3/bin:/home/rxie/perl5/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin
AND:
echo $PYSPARK_DRIVER_PYTHON
jupyter
echo $PYSPARK_DRIVER_PYTHON_OPTS
notebook
答案 1 :(得分:0)
由于某些原因,与Anaconda一起安装时jupyter无法正常工作。我遇到了同样的问题,我解决了这个问题,并在虚拟环境中重新安装了jupyter软件包。
在您的虚拟环境中执行:
pip install jupyter
答案 2 :(得分:0)
如果您使用的是python,则需要初始化spark会话
import os
import sys
spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.10.4-src.zip'))
execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))
以上是我的代码,您可能需要在spark安装中找到相应的库,并替换上面的路径。
如果幸运的话,您会看到类似的东西
Python 2.7.13 |Anaconda, Inc.| (default, Sep 22 2017, 00:47:24)
[GCC 7.2.0] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.2.1-mapr-1803
/_/
Using Python version 2.7.13 (default, Sep 22 2017 00:47:24)
SparkSession available as 'spark'.
>>> from pyspark.conf import SparkConf
>>> SparkConf
<class 'pyspark.conf.SparkConf'>
>>>