我使用pyspark内核运行Jupyter笔记本。我收到以下错误。我如何强迫Jupyter(理想情况下来自Jupyter内部)使用正确的驱动程序?
worker中的Python与驱动程序2.7中的Python版本不同,PySpark无法使用不同的次要版本运行
谢谢
哈尼
答案 0 :(得分:0)
这可能是您的pyspark kernel.json 配置中的问题。例如,我的pyspark内核位于:
/usr/local/share/jupyter/kernels/pyspark/kernel.json
并包含:
{
"display_name": "pySpark (Spark 1.6.0)",
"language": "python",
"argv": [
"/usr/local/bin/python2.7",
"-m",
"ipykernel",
"-f",
"{connection_file}"
],
"env": {
"PYSPARK_PYTHON": "/usr/local/bin/python2.7",
"SPARK_HOME": "/usr/lib/spark",
"PYTHONPATH": "/usr/lib/spark/python/lib/py4j-0.9-src.zip:/usr/lib/spark/python/",
"PYTHONSTARTUP": "/usr/lib/spark/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master yarn-client pyspark-shell"
}
}
非常重要在两个地方都指向相同的python版本( argv 和 PYSPARK_PYTHON )。
希望有所帮助!