pycharm:如何将pyspark导入pycharm

时间:2016-07-18 22:27:01

标签: python-2.7 pycharm virtualenv pyspark

我在Java / Scala中做了很多火花工作,我可以直接从main()程序运行一些测试火花作业,只要我在maven pom.xml中添加所需的火花罐。

现在我开始使用pyspark了。我想知道我是否可以做类似的事情?例如,我使用pycharm来运行wordCount作业:

enter image description here

如果我只运行main()程序,我收到以下错误:

Traceback (most recent call last):
  File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 145, in <module>
    profiler.run(file)
  File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 84, in run
    pydev_imports.execfile(file, globals, globals)  # execute the script
  File "/Users/edamame/PycharmProjects/myWordCount/myWordCount.py", line 6, in <module>
    from pyspark import SparkContext
ImportError: No module named pyspark

Process finished with exit code 1

我想知道如何在这里导入pyspark?所以我可以像在Java / Scala中那样从main()程序运行一些测试工作。

我还尝试编辑解释器路径: enter image description here

和来自Run的截图 - &gt;编辑配置:

enter image description here

最后是我的项目结构截图: enter image description here

我在这里错过了什么吗?谢谢!

2 个答案:

答案 0 :(得分:2)

我终于按照这篇文章中的步骤开始工作了。这真的很有帮助!

https://medium.com/data-science-cafe/pycharm-and-apache-spark-on-mac-os-x-990af6dc6f38#.jk5hl4kz0

答案 1 :(得分:0)

我将$ SPARK_HOME / python / lib下的py4j-xxx-src.zip和pyspark.zip添加到项目结构(首选项&gt;项目&gt;项目结构,然后执行“+添加内容根”)并且它工作正常

PS:Pycharm已经从os env读取了$ PYTHONPATH和$ SPARK_HOME,它是在.bashrc / .bash_profile中设置的